ディレクトリ
(基本的な概念の機械学習(1))@
機械学習の定義
既存のデータアルゴリズム選択によると、アルゴリズムとデータに基づいてビルドモデル、そして最終的に将来を予測します。
アルゴリズムの基本的なパラメータ
- 入力:x∈χ(属性値)
- 出力:y∈Y(ターゲット)
- 目的関数を求める(目的関数):
F:(式オーバー)Y→X- - 入力データD = {(X〜1〜、Y〜1〜)、(X〜2〜、Y〜2〜)、···(X〜N〜、Y〜N〜)}
- 最終的な式は特性を有することが仮定される:
Gは:X-→Y(最終的な式を得た学習)
データのアルゴリズムの一般的な説明
- フィッティング:与えられたデータの特性と一致するアルゴリズムを構築
- X ^(I)^:Xは、i番目のサンプルのベクトルを表します。
- X〜私〜:私次元ベクトルxの値
- 堅牢性:堅牢性、堅牢性、堅牢であり、システムの堅牢性であり、異常なデータがある場合には、アルゴリズムがデータに適合します
- 過剰適合:サンプルデータの特性にあまりにも一貫アルゴリズム、実際の生産のための特徴データが収まりません
- Underfitting:アルゴリズムは、サンプルデータの特性を満たしていません
機械学習分類器
教師付き学習
- いくつかは、知られている、または数学的モデルを構築するためにトレーニングセットの特性の一部をサンプリングして、そのモデルが未知のサンプルを予測するために設立され、この方法は、教師付き学習と呼ばれ、最も一般的に使用される機械学習であります方法。トレーニングは、モデル推論中央の機械学習タスクからのタグデータです。
- 判別モデル(判別モデル):直接条件付き確率P(Y | X)モデリング、共通モデルの識別は、次のとおり線形回帰、決定木、サポートベクターマシンSVM、隣人に最も近いK、ニューラルネットワーク。
- モデル式(生成モデル):HMM、ナイーブベイズモデル、ガウス混合モデルGMM、LDAなどの隠れマルコフモデル;同時確率分布p(x、y)はモデル化され、モデルは、共通の式を有します。
- 特長:
1。もっと普遍的モデル式、より直接的な差別のモデルは、より多くのターゲットに。
2.どのように生成モデルのデータに焦点を当て、データの分布モデルを探して、生成されます。
3.判別モデルは、分類平面を探して、データの違いに焦点を当てています。
4.判別モデルは、モデル式によって生成することができるが、パターンは、判別モデル式により形成することができません。
教師なし学習
- 教師あり学習、教師なし学習トレーニング焦点と比較すると、マンマークされ、教師なし学習プロセスの結果ではない、データは、特にモデルは、データの内部構造の一部を推測することで学習、識別されていません。
- 習得したりしようとして監視なし学習データの一般的なアルゴリズムのクラスタリングにおける重要な機能、次元削減、テキスト処理(特徴抽出)などからのデータ、または抽出情報の背後にある特徴抽出データ。
- 教師なし学習は、一般的に機能を処理する前教師付き学習データとして使用される生データタグから必要な情報を抽出することです。
半教師付き学習
- 教師あり学習と教師なし学習の組み合わせがあり、標識された試料の少量と訓練と分類のためのサンプルを標識されていない問題が多数を使用する方法を考えてみましょう。
- 習得したりしようとして監視なし学習データの一般的なアルゴリズムのクラスタリングにおける重要な機能、次元削減、テキスト処理(特徴抽出)などからのデータ、または抽出情報の背後にある特徴抽出データ。
- 教師なし学習は、一般的にプリ監視機能を処理するデータは、生データから抽出された学習に必要なタグ情報として利用されます
機械学習の開発プロセス
データ収集と保管
- 出典:
- ユーザーのアクセスデータ
- ビジネスデータ
- 外部サードパーティのデータ
- データストレージ:
- 、元のデータを前処理後のデータ、モデルの結果:データを記憶する必要があります
- 貯蔵施設:mysqlの、HDFS、HBaseの、Solrの、Elasticsearch、カフカ、Redisの、など
- データ収集方法:
- 水路&カフカ
- 実際には、我々は機械学習と開発のためのビジネスデータを使用することができますが、次のように学習過程で、何のビジネスデータは、その後、あなたは、開発、共通のデータセットのために公に利用可能なデータセットを使用することはできません。
- http://archive.ics.uci.edu/ml/datasets.html
- https://aws.amazon.com/cn/public-datasets/
- https://www.kaggle.com/competitions
- http://www.kdnuggets.com/datasets/index.html
- http://www.sogou.com/labs/resource/list_pingce.php
- https://tianchi.aliyun.com/datalab/index.htm
- http://www.pkbigdata.com/common/cmptIndex.html
データの前処理
- 必要とする初期データ前処理は、機械学習モデルの表現に適した形に変換する、モデルの多くのタイプは、これは、ベクターまたは数値データを含む行列によって表されます。
- 数値表現にエンコードに対応するカテゴリデータが-dumy(典型的には方法1-の-Kを使用して)。
- テキストデータ(バッグ法一般に使用される単語またはTF-IDF)から有用なデータを抽出します。
- 画像または音声データ処理(ピクセル、音響、音声、振幅などを<フーリエ変換します>)。
- データのカテゴリに数値データは、年齢区分などの変数の値を減少させます。
- このよう対数変換などの数値データを、変換します。
- 同じモデルの異なる入力変数の同じ範囲ことを確実にするために標準化機能の正則、。
または、このような平均数(ダミー変数を行う)などの新しい変換機能を、生成するために、既存の変数の組み合わせは、努力を続けます。
特徴抽出
モデル構築
モデルの選択:特定のタスクのモデリング手法や特定のモデルの最適なパラメータを選択するための最良の選択。
モデルのテストと評価
トレーニングデータセットモデル(アルゴリズム)とテストデータのテスト結果に集中上で実行されている、データ・モデルの反復修飾は、これは、トレーニングセットを使用してモデルを構築するために、クロスバリデーション(訓練および試験セットにデータと呼ばれそして、評価モデルのテストセットを使用して)修正を示唆しています。
選択したモデルは、多くの選択アルゴリズムの実行としても、結果を比較します。
通常、テストモデルは以下の側面、すなわち、精度/リコール/正解率/ F値を比較します。
- サンプル精度(精度)=サンプルの抽出/総数の正しい数。
- リコール(想起)=サンプルの正しい数の正例/サンプルの陽性サンプルの数 - カバレッジ。
- 正確な比(精度)=正しい陽性サンプルの数/サンプル数は、正の実施形態を予測しました。
精密F値= リコール 2 /(リコール精度+)(正しいとリコール即ち、F調和平均値)。
使用に入れ(モデルの展開と統合)
- 良好なモデル構築、データベースに格納されている訓練されたモデルは、モデル(通常は良好なモデル構築マトリックス)を使用して他のアプリケーションのロードを容易にする場合。
1ヶ月、1週間:モデルは、定期的にする必要があります。
反復最適化
- 実際の運用環境に入れ、一度モデルは、パフォーマンスモニタリングモデルは非常に重要であり、多くの場合、ビジネス・パフォーマンスとユーザーエクスペリエンスに焦点を当てる必要があるときは、その時々のA / Bテスト(3:7のテストは:元のシステムで、アルゴリズムを処理しますテスト、二つの試験間の差)。
モデルは、モデル上の異常フィードバックので、操作の前処理に必要なデータのために必要であることに留意すべきである、と、操作に応じて、ユーザーのフィードバックを必要とする、すなわち、モデルを修正します。