機械学習一般的なプロセス
2019年8月25日
1.機械学習クラシファイア
機械学習は、すなわち三つのカテゴリーに分かれて:教師あり学習、強化学習、教師なし学習、大きな違いの一つは次の通りです。
1.1教師あり学習
(すなわち、サンプルの出力は)学習モデルのトレーニング法上のフィードバックとしてラベルトレーニングデータによって知られているラベルのトレーニングデータは、教師付き学習と呼ばれ、一般的な分類と回帰サブクラスは2を持っています。
1.2強化学習
トレーニングデータを学習強化明確にラベルされたが、それは、閉ループフィードバックにおける自動制御理論に似たフィードバック信号を、持っていなかった。これは通常、フィードバック信号では、開発者が定義した関数のこのフィードバック機能により、現在のシステムの評価を発生させますフィードバック信号を介してシステムの更なるトレーニング。
1.3教師なしシステム
明確に表示されていない、何のフィードバック機能がないデータ教師なしトレーニングシステム、このシステムの機能は、データの全体的な構造を探求するラベルやフィードバック状況なしに有用な情報を抽出することで、一般的なサブクラスのクラスタリングと次元削減があります。
2.機械学習システムの青写真
全体のシステムは、5つの機械学習の進歩に分けることができる:1)データ取得、2)データの前処理、3)モデルのトレーニング、4)モデル検証、5)モデルを使用します。
2.1データ収集
それは、アルゴリズムのトレーニングのパフォーマンスに関連する機械学習のための前提条件であり、重要です。
2.2データの前処理
主な目的は、特に、機械学習アルゴリズムの性能を改善することである:1)前提でトレーニングデータの量を低減することがアルゴリズムのトレーニング時間をスピードアップするために、可能な限りアルゴリズムの精度には影響しない、2)データ処理アルゴリズムの精度を向上させます。
多くのデータ前処理技術は、主に以下のとおりである、があります。
1)データクリーニング:
2)データで満たされました。
3)データフォーマット変換:
4)特徴量抽出及びズーム:特性データの順序との間の位相差をもたらす異なる寸法の異なる特性の結果として、より小さな数値データが大きなデータ、アルゴリズムのようなパフォーマンスの低下を浸漬され、大幅に異なっていてもよいです。特徴抽出アルゴリズムは[0,1]の異なるフィーチャにデータをスケーリングし、マッピングすることにより得られる、またはそれによってアルゴリズムの性能を向上させる、標準正規分布の平均、分散1、0を満たすように、
5)選択機能:
6)次元削減:選択された特徴は、記憶データを縮小、次元削減を介してデータ線との間の結合を低減することが可能であると思われる前記データ部との間に強い結合が存在し、トレーニングアルゴリズムが加速しますそして、速度;
7)サンプリング:アルゴリズムの一貫性を確保するために、我々は学習データに効果的なアルゴリズムを必要としないだけではなく、新しいデータにも優れ、試験データは不可欠であり、訓練データとテストデータの合理的な配分(スルーデータの相互検証アルゴリズムも有効であることを保証するために)時には必要である場合に工具。
8)正規化されたデータなどが挙げられます。
2.2モデルのトレーニング
モデルトレーニングはアルゴリズム全体の効果に関連し、機械学習の重要なステップであり、技術のモデル訓練、多くの共通があります:
1)モデル選択(非常に重要):異なるビジネスシナリオのためのさまざまなモデル、より効果的にすることができ、右のモデルを選択してください。
2)目的関数:アルゴリズムの性能を評価するための機能と、
3)最適化:使用に必要な目的関数の最適化アルゴリズムを実現する方法、すなわち、共通の「勾配降下法」;
4)トレーニング条件を設定した停止:無制限操作トレーニングプロセス設定終了トレーニング条件を防止するために、繰り返し使用可能な回数と目的関数は、訓練を停止する条件に閾値の組み合わせです。
5)クロスバリデーション:トレーニングセットの一種類は、「トレーニングセット」+「検証セット」で割ってオーバーフィッティングモデルの低減を意味する単純かつ効果的である。ハーフ優れた性能評価プロセスに対するチューニングモデルパラメータは、分離試験オーバーフィッティング防止するために設定。
6)スーパー最適化パラメータ:スーパー基準モデルパラメータは、一般的にトレーニング・プロセスで使用されていない。このような正則化係数、学習率、反復回数、等を、低減することができるhyperparametric適切な過剰適合モデル、列車速度、加速度;
7)・・・・・・
2.3モデルの検証
モデルの性能を評価するため、テストセットを使用しました。
そのような一般的ように分類モデル・エラー・レート、精度、リコール、F1指標、ROC、およびで使用されるなど、モデルのパフォーマンス指標、がたくさんあります。
2.4モデルの使用
これは、出力データを予測するための新しいモデルを使用するように訓練されています。
それは技術の多くが含ま少しで今後の記事で追加するために開始する各プロセスに固有の、一般的な機械学習アルゴリズムのより一般的なプロセスです。