入門
機械学習は、ビッグデータの今日の時代の文脈の中で非常に重要な研究方向に人工知能研究の分野であるデータキャプチャと貴重からの情報やパターンを抽出し、業界では、生存の決定的な手段となっている、と開発、これますこの過去のアナリストや研究の排他的な領域より多くの人々の注目を数学者として。
「本当の機械学習は」基礎は機械学習に着目し、分類するためのアルゴリズムを使用し、徐々に、そのようなk近傍、ナイーブベイズアルゴリズム、ロジスティック回帰アルゴリズム、SVM、AdaBoostのような古典教師付き学習アルゴリズム、さまざまな導入する方法回帰と分類ツリーアルゴリズム回帰ツリー(CART)アルゴリズムに基づいて統合されたアプローチ、。アルゴリズム、アプリオリアルゴリズム、FP-成長アルゴリズムをk-meansクラスタリング:第三部では、教師なし学習アルゴリズムとその主要の一部に焦点を当てています。第四の部分は、いくつかのツール子会社の機械学習アルゴリズムを導入しています。
「機械学習本当の」学術言語、統計データ、データ解析と可視化に対処する方法を説明するための効率的な再利用可能なPythonコードの使用を放棄する、日常業務の中に、一例でカットを振り付け。様々な例では、読者は、機械学習アルゴリズムのコアから学ぶことができ、そのような分類、予測、勧告など戦略的なタスクのいくつかを適用することができます。さらに、彼らはまた、このような統合と簡素化など、より高度な機能のいくつかを達成するために使用することができます。
著者について
ピーター・ハリントン、電気工学の学士号と修士号を、彼は7年間、カリフォルニア州と中国Intel社で働いていました。ピーターは5件の米国特許を持っており、三つの学術雑誌に論文を発表しています。彼は今、チーフサイエンティストのZillabyte会社で、会社に入社する前、彼は機械学習ソフトウェアコンサルタントの2年間務めました。ピーターは彼の空き時間に競技をプログラミングし、また、3Dプリンターの建設に参加しました。
ワンダフル書評
「簡単に学ぶためには、非常に証明している
便利。」--Alexandreアルベスは、Oracle CEPの建築家は、
「機械学習のコアの本質の慎重コードテクスチャ完璧な解釈。」
--Patrick Toohey、メトラー・トレド、ハイスピードソフトウェアエンジニア
「いいの例としては!どこでも使用することができます!」
--Johnグリフィン、パートナーにHibernate検索アクション帳に
「プログレッシブ物語は、巧みなアルゴリズムの違いを説明しています。」
-スティーブンMcKamey、異性体プラクティスディレクターの技術革新
ディレクトリ
分類の最初の部分
第1章基本的な機械学習
1.1機械学習とは何ですか
1.1.1センサと膨大なデータ
1.1.2機械学習は非常に重要です
1.2重要な用語
機械学習の1.3主なタスク
適切なアルゴリズムを選択する方法1.4
機械学習申請手続きの1.5開発
利点1.6 Python言語
1.6.1実行可能な擬似コード
1.6.2 Pythonの人気
1.6.3 Python言語の機能は
1.6.4のPython言語の欠点
1.7 numpyのライブラリーの基礎
1.8まとめ
第2章K-最近傍
2.1 K-最近傍アルゴリズムの概要
2.1.1準備:インポートデータへのPythonを使用して
、テキストファイルからのデータの構文解析2.1.2
どのようにテスト分類器へ2.1.3
2.2例:出会い系サイトの効果を改善するために、K-最近傍のペアを使用して
2.2.1データの準備:テキストファイルからの分析データ
2.2.2データ分析:matplotlibのに使用して散布図を作成して
正規化した値:2.2.3対応データ
2.2.4テストアルゴリズム:完全なプログラム検証分類器として
2.2.5を使用しアルゴリズム:使用可能な完全なシステムを構築
例2.3:手書き認識システム
2.3.1データ準備:テストベクトルに画像
2.3.2試験方法:デジタル手書き認識K-最近傍アルゴリズムを使用して
2.4まとめ
第3章ディシジョン・ツリー
3.1決定木構造
3.1.1情報ゲイン
3.1.2データ分割
3.1.3再帰的な建物の決定木
3.2 matplotlibのは、Python系統樹に注釈を描きます
3.2.1 matplotlibの注意事項
3.2.2ノートツリー構造
3.3テスト分類器とストレージ
3.3.1試験方法:分類実行する決定木を使用して
アルゴリズムを使用して3.3.2:デシジョンツリーストレージ
例3.4:コンタクトレンズの決定木の種類を使用して予測
3.5まとめ
確率論に基づいて、第4章分類方法:ナイーブベイズ
4.1ベイズ決定理論に基づく分類
4.2条件付き確率
4.3分類するための条件付き確率を使用した
文書分類のために4.4ナイーブベイズを
Pythonのテキストの分類と4.5
データの準備4.5.1:建物ベクトル語テキストから
4.5.2学習アルゴリズム:ワード確率はベクトルから計算される
4.5.3テストアルゴリズム:現実に従って分類を変更する
単語モデルのドキュメントバッグ:4.5.4レディデータ
4.6例:フィルタリングナイーブベイジアンスパムを使用して、
テキストセグメンテーション:4.6.1レディデータ
4.6.2テストアルゴリズム:ナイーブベイズはクロスチェックを
4.7例:単純ベイズ分類器域を使用すると、個々の広告を取得する傾向があります
インポートRSSフィード:4.7.1収集データ
4.7.2データ分析:表示エリアに関連する用語
4.8まとめ
第5章ロジスティック回帰
ロジスティック回帰とシグモイド関数に基づいて、5.1
5.2回帰係数を最適化する最善の方法に基づいて決定されます
5.2.1勾配上昇法
5.2.2トレーニングアルゴリズム:最高のパラメータを見つけるために、勾配の上昇を使用して
境界線を描画するための決定:5.2.3データ分析
5.2.4トレーニングアルゴリズムを:確率的勾配上昇
5.3例:ヘルニア疾患による死亡率の病気の馬を予想します
5.3.1データの準備:データ処理における欠損値
ロジスティック回帰と分類:5.3.2テスト・アルゴリズムを
5.4まとめ
第6章SVM
データを分離する最大距離に基づいて6.1
6.2最大間隔を見つけます
6.2.1分類器の最適化問題解決
の一般的なアプリケーションフレームワーク6.2.2 SVM
6.3 SMO効率的な最適化アルゴリズム
6.3.1プラットのSMOアルゴリズム
小規模なデータセットに対処するためのSMOアルゴリズムの6.3.2アプリケーション簡易版
完全なプラットSMOアルゴリズムアクセラレーションの最適化と6.4
複雑なデータ上のカーネルの6.5応用
高次元空間へのデータのマッピング6.5.1カーネル関数
6.5.2カーネル機能
試験に使用6.5.3カーネル関数
6.6例:手書き文字認識の問題をレビュー
6.7まとめ
第7章人民元使用のAdaBoostアルゴリズムは、分類性能を向上します
複数の分類器のサンプルデータセットに基づいて、7.1
7.1.1袋詰め:データ分類に基づいてランダムリサンプリング方法の構築
後押し7.1.2
7.2トレーニングアルゴリズム:偽に基づく分類器の性能を後押し
単一弱識別器の7.3建設は、ベースの決定木であります
7.4 AdaBoostのアルゴリズムの完全な達成するために
7.5試験方法:アダブーストに基づく分類
例7.6:ハードでのAdaBoostのデータ・セットの適用
7.7分類アンバランス
7.7.1その他の分類性能指標:精度、リコールとROC曲線
コスト関数の決定に基づいて7.7.2コントロール分類器
7.7.3データのサンプリングアプローチアンバランスの問題に
7.8まとめ
数値データの回帰予測の第二の部分
第8章予測数値データ:リターン
線形回帰を使用して、最良適合直線を見つけるために8.1
ローカル重み付き線形回帰8.2
8.3例:アワビの年齢を予測します
データを「理解」に8.4減少係数
リッジ回帰8.4.1
8.4.2なげなわ
8.4.3前方ステップワイズ回帰
8.5は、偏差と分散を量ります
8.6例:レゴセットの価格を予測します
8.6.1データ収集:使用API Googleショッピング
8.6.2学習アルゴリズム:モデル
8.7まとめ
第9章回帰木
9.1をモデル化産地複雑なデータ
9.2連続と離散機能ツリーの建設
復帰のための9.3 CARTアルゴリズム
9.3.1ビルドツリー
のコードを実行するために、9.3.2
9.4木の剪定
9.4.1事前剪定
9.4.2を剪定した後
9.5モデルツリー
9.6例:標準の回帰と回帰ツリーの比較
9.7 PythonのTkinterのGUIライブラリを使用して作成します。
GUIのTkinterの作成9.7.1
9.7.2統合matplotlibのとのTkinterを
9.8まとめ
教師なし学習の第三部
ラベルなしデータパケットを使用するアルゴリズムをクラスタリング第10章K-手段
クラスタリングアルゴリズム10.1 K-手段
クラスタリングの性能を改善するために処理を用いて10.2
10.3半K-手段アルゴリズム
10.4例:マップのクラスタリング上のポイント
10.4.1ヤフー API PlaceFinder
10.4.2地理座標クラスター
10.5まとめ
第11章アプリオリアルゴリズム相関分析を使用して
11.1相関分析
11.2アプリオリ原則
頻繁に使用セット見つける11.3アプリオリアルゴリズム
11.3.1は候補集合生成
無傷アプリオリアルゴリズム11.3.2組織
集中マイニングアソシエーションから11.4頻出アイテムルール
11.5例:世論調査の議会モード
11.5.1データ収集:トランザクションデータセットの米国議会の投票記録を構築するために
11.5.2テスト・アルゴリズム:議会の投票記録鉱業協会のルールに基づいて、
例11.6:毒キノコで見つかった類似の特徴
11.7まとめ
第12章FP-成長アルゴリズムは、効率的に、頻繁なアイテムセットを見つけるために
12.1 FPツリー:効率的な符号化されたデータセットのために
FP木の12.2建設
12.2.1作成FPツリーデータ構造
12.2.2ビルドFPツリー
ツリーから12.3鉱業頻度項目セットのFP
12.3.1抽出条件モードイル
12.3.2ツリー作成条件FP
12.4例:Twitterのソースにいくつかの共起語を見つけます
12.5例:鉱業ニュースサイトのクリックストリームから
12.6まとめ
パートIVその他のツール
データの使用を簡素化する第13章PCA
13.1次元削減技術
13.2 PCA
軸13.2.1移動
13.2.2 numpyのは、PCAに実装しました
例13.3:半導体製造PCAの次元縮小を使用して
13.4まとめ
第14章SVDは、データの使用を簡素化
14.1 SVDアプリケーション
14.1.1暗黙のセマンティックインデクシング
14.1.2推薦システム
14.2行列の因数分解
14.3 Python実装を使用してSVD
14.4ベースの協調フィルタリング推薦エンジン
14.4.1類似度算出
14.4.2類似度ベースのアイテム又はユーザベースの類似?
14.4.3評価推奨エンジン
14.5例:グルメレストランレコメンドエンジン
14.5.1推奨されていない料理
14.5.2は効果向上SVDの使用を推奨
推奨エンジンが直面している14.5.3ビルドの課題を
14.6 SVDベースの画像圧縮
14.7まとめ
MapReduceのと第15章ビッグデータ
15.1のMapReduce:分散コンピューティングフレームワーク
15.2 Hadoop流
15.2.1分散コンピューティング平均および分散マッパー
15.2.2は、減速機の平均と分散を計算する分散しました
Amazon Webサービス上でのHadoopを実行する15.3プログラム
15.3.1で利用可能なAWSサービス
15.3.2 Amazon Webサービスは、ツアーになっている
EMR Hadoopのジョブで実行されている15.3.3
15.4のMapReduceに機械学習
MapReduceのを自動化するPythonで15.5 mrjob
EMRと15.5.1 mrjobシームレスな統合
のMapReduceスクリプト15.5.2 mrjobプロファイリング
15.6例:ペカザスの分散SVMアルゴリズム
15.6.1 Pegasosのアルゴリズム
15.6.2学習アルゴリズム:mrjob SVMでのMapReduceのバージョンを達成
15.7 MapReduceはあなたが本当に必要なのでしょうか?
15.8まとめ