HD中国の「本当の機械学習は、」PDF + HD英語PDF +のソースコードをタグ付け

1 EDITORIAL

最近、私は、「戦闘機械学習」、機械学習プロジェクトを行うには良い本を見つけ導入し、主流を達成するためのアルゴリズムを機械学習します。効率的な毎日の仕事のための実際の内容は、「機械学習は、本物の」理論的な観点から、機械学習アルゴリズムの背後にある数学的な原則を明らかにしたが、「でないような原則が質問+ + +実際のコードの動作結果の例を概説しました

我々はすべて知っているように、人工知能は、機械学習、研究における研究の非常に重要な分野は、ビッグデータ、データキャプチャの今日の時代の文脈の中で、あると産業が生き残るためになるために、またはパターンから貴重な情報を抽出し、決定的なの開発より多くの人々の排他的な注目を集めるため、過去のリサーチアナリストや数学のこの領域を作るた、を意味します。

提案された基準「戦闘機械学習」入門、(KNN /ツリー/ナイーブベイズ/ロジスティック回帰/ SVM /変更するサンプルの重みの製袋adaboosting含む教師あり学習、)は、4つの部分、すなわち分類に分割されています回帰、教師なし学習(関数kmeans、アプリオリ/ FP-(教師あり学習、線形回帰は、局所的に長い縮小率、等リッジ回帰、投げ縄、回帰ツリー、この制御は非常に良好ではないとしてのサンプルの数よりも寸法を特徴とする、重み付けされました)成長)や他のツール(PCA / SVD / MapReduceの)。

2研究の参照

ディレクトリのブックマークと中国の高精細バージョン、339「本当の機械学習」は、テキストをコピーすることができ、HD英語、382ディレクトリブックマークで、テキストをコピーすることができます。

2つの比較研究の英語版。詳細は、ソースコードと説明。

本Baiduのクラウドディスクのダウンロードリンク:HD PDF +のダウンロードソースコードをタグ付け「機械が本当の学習」

 

 

リストの3本

第1章基本的な機械学習   

1.1機械学習とは何ですか   

1.1.1センサデータと質量   

1.1.2機械学習は非常に重要です   

1.2重要な用語   

機械学習の1.3主なタスク   

適切なアルゴリズムを選択する方法1.4   

機械学習申請手続きの1.5開発   

1.6 Python言語アドバンテージ   

1.6.1実行可能な擬似コード   

1.6.2 Pythonのより人気   

1.6.3 Python言語の機能   

1.6.4 Python言語の欠点   

1.7 numpyのライブラリ基盤   

1.8まとめ   

第2章K-最近傍    

2.1 K-最近傍アルゴリズムの概要   

2.1.1準備:Pythonのインポートデータを使用し   

2.1.2テキストファイルからデータを解析します   

分類器をテストする方法2.1.3   

2.2例:出会い系サイトの効果を改善するために、K-最近傍のペアを使用して   

2.2.1データの準備:テキストファイルからデータを解析   

2.2.2データ分析:matplotlibのを使用して散布図を作成します。   

2.2.3データの準備:正規化した値   

2.2.4試験方法:完全なプログラム検証分類器など   

利用できる完全なシステムを構築するために:2.2.5算術演算を使用します   

例2.3:手書き認識システム   

2.3.1データの準備:テストベクトルに画像を変換します   

2.3.2試験方法:K-最近傍を使用して手書きの数字を認識   

2.4まとめ   

第3章ディシジョン・ツリー    

3.1決定木構造   

3.1.1情報ゲイン   

3.1.2データ分割   

3.1.3再帰的な建物の決定木   

3.2 matplotlibのは、Python系統樹に注釈を描きます   

3.2.1 matplotlibのコメント   

3.2.2ノートツリー構造   

3.3テスト分類器とストレージ   

3.3.1テストアルゴリズム:決定木の分類の実行   

アルゴリズムを使用して3.3.2:決定木ストレージ   

例3.4:予測コンタクトレンズの決定木の種類を使用して   

3.5まとめ   

確率論に基づいて、第4章分類方法:ナイーブベイズ    

ベイズ決定理論に基づいて4.1分類   

4.2条件付き確率   

4.3分類するための条件付き確率を使用しました   

文書分類のための4.4ナイーブベイズ   

4.5テキスト分類のためのPythonの使用   

4.5.1データの準備:テキストから建物のベクトルワード   

4.5.2学習アルゴリズム:ワード確率ベクトルから計算   

4.5.3テストアルゴリズム:現実に基づいて変更して分類器   

4.5.4データの準備:言葉モデルのドキュメントバッグ   

4.6例:ナイーブベイジアンスパムフィルタを使用して   

4.6.1データの準備:テキストセグメンテーションを   

4.6.2テストアルゴリズム:ナイーブベイズクロスチェック   

4.7例:単純ベイズ分類器領域とを使用すると、個々の広告を取得する傾向があります   

4.7.1データ収集:輸入RSSフィード   

4.7.2データ分析:表示エリアに関連する用語   

4.8まとめ   

第5章ロジスティック回帰    

5.1ロジスティック回帰とシグモイド関数に基づいて、   

決定するための5.2 ##良い回帰係数ベースの最適化方法   

5.2.1メソッド勾配上昇   

5.2.2トレーニングアルゴリズム:最高のパラメータ#を見つけるために、勾配上昇を使用して   

データの分析5.2.3:境界線を描画することを決定   

5.2.4学習アルゴリズム:確率的勾配上昇   

5.3例:ヘルニア疾患による死亡率の病気の馬を予想   

データ処理における欠損値:データの準備5.3.1   

5.3.2テストアルゴリズム:分類とロジスティック回帰   

5.4まとめ   

第6章SVM   

6.1#大きなギャップ分離データに基づいて、   

大きな間隔6.2#を探して   

6.2.1分類器の最適化問題解決   

一般的なフレームワーク6.2.2 SVMアプリケーション   

6.3 SMO効率的な最適化アルゴリズム   

6.3.1プラットのSMOアルゴリズム   

小規模なデータセットに対応するSMOアルゴリズムの簡略バージョン6.3.2アプリケーション   

完全なプラットSMOアルゴリズムアクセラレーションの最適化と6.4   

複雑なデータ上のカーネルの6.5応用   

高次元空間にデータをマッピング6.5.1カーネル関数   

6.5.2カーネル関数   

核実験の使用6.5.3機能   

6.6例:手書き文字認識の問題レビュー   

6.7まとめ   

第7章元が分類を改善するためのAdaBoostアルゴリズムを使用します 

演奏    

複数の分類器のサンプル・データ・セットに基づいて7.1   

7.1.1袋詰め:データの分類に基づいてランダムリサンプリング方法の構築   

後押し7.1.2   

7.2学習アルゴリズム:偽ブースト分類器のパフォーマンスに基づいて、   

7.3つの弱識別器の構築に基づく決定木であります   

完全に達成するために、7.4のAdaBoostアルゴリズム   

7.5試験方法:アダブーストに基づく分類   

例7.6:ハードに設定されたアダブーストデータの応用   

アンバランス7.7分類   

7.7.1その他の分類性能指標:精度、リコールとROC曲線   

7.7.2コスト関数に基づく分類器の決定制御   

アンバランスの問題に7.7.3データサンプリングアプローチ   

7.8まとめ   

パーツ#数値データの回帰予測 

第8章予測数値データ:リターン    

最高のフィットライン#を見つけるために8.1線形回帰   

ローカル加重線形回帰8.2   

8.3例:アワビの年齢を予測します   

データを「理解」する8.4低減率   

8.4.1リッジ回帰   

8.4.2投げ縄   

ステップワイズ回帰の前に8.4.3   

8.5偏差と分散を量ります   

8.6例:レゴセットの価格を予測します   

8.6.1データ収集:GoogleショッピングのAPIを使用して   

8.6.2学習アルゴリズム:モデル   

8.7まとめ   

第9章回帰木   

産地複雑なデータモデリング9.1   

9.2連続と離散機能ツリーの建設   

復帰のための9.3 CARTアルゴリズム   

ツリーの構築9.3.1   

9.3.2コードを実行するには   

9.4木の剪定   

9.4.1事前剪定   

9.4.2を剪定した後、   

9.5モデルツリー   

9.6例:標準の回帰と回帰木の比較   

9.7 PythonのTkinterのGUIライブラリを作成して使用します   

GUIのTkinterの作成9.7.1   

9.7.2統合matplotlibのとのTkinter   

9.8まとめ   

教師なし学習の第三部 

第10章K-は非標識のデータパケットを使用するクラスタリングアルゴリズムを意味し、   

10.1 K-クラスタリングアルゴリズムを意味し、   

クラスタリングの性能を改善するために処理を用いて10.2   

10.3半分K-は、アルゴリズムを意味し、   

10.4例:マップのクラスタリング上のポイント   

10.4.1ヤフーPlaceFinder API   

10.4.2地理座標クラスタ   

10.5まとめ   

相関分析を使用して第11章アプリオリアルゴリズム   

11.1相関分析   

11.2アプリオリ原則   

頻繁に使用するセットを見つけるために11.3アプリオリアルゴリズム   

11.3.1候補セットを生成   

アプリオリアルゴリズムの11.3.2構造的完全性   

集中マイニングアソシエーションから11.4頻出アイテムルール   

11.5例:世論調査の議会モード   

11.5.1データ収集:トランザクションデータセットの米国議会の投票記録を構築します   

11.5.2テストアルゴリズム:議会の投票記録鉱業協会のルールに基づいて、   

例11.6:毒キノコで見つかった類似の特徴   

11.7まとめ   

第12章FP-成長アルゴリズムは、効率的に、頻繁なアイテムセットを見つけるために   

12.1 FPツリー:効率的な符号化されたデータセットのために   

FP木の12.2建設   

12.2.1 FP木のデータ構造を作成します   

12.2.2 FPツリーを構築   

ツリーから12.3鉱業頻度項目セットFP   

12.3.1抽出条件モードイル   

12.3.2条件FPツリーを作成   

12.4例:Twitterのソースにいくつかの共起語を見つけます   

12.5例:鉱業ニュースサイトのクリックストリームから   

12.6まとめ   

パートIVその他のツール 

データの使用を簡素化する第13章PCA   

13.1次元削減技術   

13.2 PCA   

13.2.1座標軸移動   

13.2.2 numpyの中でPCAを実装   

例13.3:半導体製造PCAの次元縮小を使用して   

13.4まとめ   

第14章SVDは、データの使用を簡素化   

14.1 SVDアプリケーション   

14.1.1暗黙のセマンティックインデクシング   

14.1.2推薦システム   

14.2行列の因数分解   

Python実装のSVDを使用して14.3   

14.4ベースの協調フィルタリング推薦エンジン   

14.4.1類似度計算   

14.4.2商品またはユーザーベースの類似性の類似性に基づいて?   

14.4.3評価推奨エンジン   

14.5例:グルメレストランの推奨エンジン   

14.5.1推奨されていない料理   

14.5.2は、SVD改善効果の使用を推奨しました   

推奨エンジンが直面する課題の14.5.3建設   

14.6 SVDベースの画像圧縮   

14.7まとめ   

MapReduceのと第15章ビッグデータ   

15.1のMapReduce:分散コンピューティングフレームワーク   

15.2 Hadoopのストリーミング   

15.2.1は、マッパーの平均と分散を計算する分散します   

15.2.2分散コンピューティングの平均と分散リデューサ   

15.3 Hadoopのは、ネットワークサービスAmazoの#でプログラムを実行しています   

上で利用可能15.3.1 AWSサービス   

15.3.2オープンAmazo#ネットワークサービスツアー   

EMRの15.3.3実行中のHadoopジョブ   

15.4のMapReduceの機械学習   

MapReduceのを自動化するPythonで15.5 mrjob   

シームレスEMRと統合15.5.1 mrjob   

MapReduceののスクリプト解析15.5.2のmrjob   

15.6例:ペカザスの分散SVMアルゴリズム   

15.6.1 Pegasosのアルゴリズム   

15.6.2トレーニングアルゴリズム:SVMはmrjobとMapReduceのバージョンを実装   

15.7 MapReduceはあなたが本当に必要なのでしょうか?   

15.8まとめ   

付録AのPython入門します   

付録B線形代数   

付録Cの確率レビュー   

付録Dリソース   

指数   

著作権

ワンダフルダイジェスト

 

おすすめ

転載: www.cnblogs.com/pfm-cnblogs1/p/11780406.html
おすすめ