【機械学習ノート】(転載学習)完全機械学習プロジェクトのワークフロー

完全な機械学習プロジェクトのワークフロー

元のブログ投稿:https : //ask.julyedu.com/question/7013

1数学的問題への要約

問題を特定することは、機械学習の最初のステップです。機械学習のトレーニングプロセスは通常非常に時間がかかり、ランダムな試行時間のコストは非常に高くなります。

ここでの抽象化は数学的な問題です。つまり、目的が分類、回帰、またはクラスタリングの問題であるかどうかにかかわらず、それが問題の1つとして分類されている場合、どのようなデータを取得できるかがわかります。

2データを取得する

データは機械学習結果の上限を決定し、アルゴリズムはこの上限に可能な限り近づきます。

データは代表的なものである必要があり、そうでなければ必然的に過剰適合になります。

さらに、分類の問題では、データの偏りが深刻であってはならず、異なるカテゴリーのデータの数が数桁異なることはありません。

また、データの大きさの評価があります。メモリ消費量を推定し、トレーニングプロセス中にメモリを停止できるかどうかを判断するために使用できるサンプル数と機能数。手放せない場合は、アルゴリズムを改善するか、いくつかの次元削減手法を使用することを検討する必要があります。データの量が多すぎる場合は、分散を検討する必要があります。

3特徴の前処理と特徴の選択

本当に効果的であるためには、優れたデータが優れた特徴を抽出できなければなりません。

機能の前処理とデータのクリーニングは非常に重要なステップであり、アルゴリズムの効果とパフォーマンスを大幅に向上させることができます。正規化、離散化、因数分解、欠損値処理、共線性の削除などは、データマイニングプロセスに多くの時間を費やします。これらの仕事はシンプルで再現可能であり、収益は安定していて予測可能です。これは機械学習の基本的な必須ステップです。

重要な機能を除外し、重要でない機能を破棄するには、機械学習エンジニアがビジネスを繰り返し理解する必要があります。これは多くの結果に決定的な影響を与えます。機能が選択されると、非常に単純なアルゴリズムでも良好で安定した結果が得られます。これには、相関係数、カイ2乗検定、平均相互情報量、条件付きエントロピー、事後確率、ロジスティック回帰重みなど、機能の有効性分析に関連する手法を使用する必要があります。

4トレーニングモデルとチューニング

上記のアルゴリズムがトレーニングに使用されたのは、このステップまででした。多くのアルゴリズムは、人間が使用するブラックボックスにパッケージ化できるようになりました。しかし、実際のテストは、これらのアルゴリズムの(スーパー)パラメーターを調整して、結果をより優れたものにすることです。これには、アルゴリズムの原理を深く理解する必要があります。より深く理解すればするほど、問題の核心を見つけ、適切なチューニング計画を提案できます。

5モデル診断

モデル調整の方向とアイデアを決定する方法は?これには、モデルを診断するための手法が必要です。

過剰適合および過小適合の判断は、モデル診断の重要なステップです。交差検証、学習曲線の描画などの一般的な方法 オーバーフィットの基本的なチューニングのアイデアは、データの量を増やし、モデルの複雑さを減らすことです。アンダーフィッティングの基本的なチューニングのアイデアは、機能の数と品質を増やし、モデルの複雑さを増やすことです。

エラー分析は、機械学習の重要なステップでもあります。エラーサンプルを観察することにより、エラーの原因は完全に分析されます。それは、パラメーターの問題なのか、アルゴリズムの選択の問題なのか、機能の問題なのか、データ自体の問題なのか...

診断後のモデルは調整する必要があり、調整後の新しいモデルは再診断する必要があります。これは反復を繰り返し、最適な状態に到達するために継続的に試行する必要がある連続近似のプロセスです。

6モデルの融合

一般的に言えば、モデルを融合した後、効果を向上させることができます。そして、それはうまくいきます。

エンジニアリングにおいて、アルゴリズムの精度を向上させる主な方法は、モデルのフロントエンド(機能のクリーニングと前処理、さまざまなサンプリングモード)とバックエンド(モデルの融合)で作業することです。それらはより標準的で再現性があるため、効果はより安定します。しかし、パラメータを直接調整する作業はそれほど多くなく、結局のところ、大量のデータはトレーニングが遅すぎて、効果を保証することが困難です。

7オンラインにする

この部分は主にプロジェクトの実装に関連しています。エンジニアリングは結果指向であり、ラインで実行されているモデルの効果が、モデルの成功または失敗を直接決定します。精度とエラーだけでなく、実行速度(時間の複雑さ)、リソース消費(スペースの複雑さ)、安定性が許容できるかどうかも含まれます。

これらのワークフローは、主にエンジニアリングの実践で要約されたいくつかの経験です。すべてのプロジェクトに完全なプロセスが含まれているわけではありません。この部分は単なるガイドであり、より多くの練習を積み、より多くのプロジェクト経験を蓄積して初めて、より深く理解することができます。

したがって、これに基づいて、7月にオンラインで行われるすべてのMLアルゴリズムクラスには、機能エンジニアリング、モデル調整、およびその他の関連コースが追加されます。

元の記事646件を公開 賞賛された198件 690,000回

おすすめ

転載: blog.csdn.net/seagal890/article/details/105260007