機械学習ノート(理解)

1.コンセプト

機械学習は、履歴データから特定の法則を見つけ、これらの法則を使用して不確実な将来のシナリオについて決定を下すことです。

機械学習とデータ分析

データ分析とは、履歴トランザクションデータからルールを人為的に見つけて意思決定を行うことです。
機械学習とは、機械によるアルゴリズムを使用して、過去の行動データのパターンを見つけ、意思決定を行うことです。

トランザクションデータは小さく、行動データは大量です。

データ分析の精度は、主に専門家の分析能力に依存します。
機械学習の精度は主に履歴データに依存します。

専門家がどんなに強力であっても、彼の判断は一方的で主観的です。

したがって、データ分析から機械学習までは、実際には専門家をデータに置き換えるプロセスです。

機械学習と統計

統計、大量のデータのサンプリング分析、結論の取得、逆検証、および結論の最適化。
機械学習、大量のデータの完全な分析、および結論。

大量のデータが原因で最も早い統計は、サンプリング方法を使用する場合にのみ、完全に処理することはできません。
機械学習により、この問題は実際に解決されます。

オフライン機械学習とオンライン機械学習

1日分のデータの保存や朝の1回のバッチ機械学習など、ほとんどの機械学習はオフラインです。
特別なビジネスシナリオでは、オンラインのリアルタイム機械学習が必要です。新しいデータを通じてモデルを継続的に刺激し、eコマースの推奨事項は一般にリアルタイムです。たとえば、気に入った場合は、製品を検索した後のブラウジングで検索したばかりの類似製品をいつでも推奨できます。

2.機械学習の応用

ショッピング分析(関連付けルールアルゴリズム)

クラシックなケース:アメリカのビールとおむつは常に同時に購入されます。商人は、売上を増やすために、対応するバンドルマーケティングを実行します。

精密マーケティング(クラスタリングアルゴリズム)

人々は正確に異なるカテゴリーに分けられ、各カテゴリーは異なるマーケティングを実施します。

スパムの認識(単純ベイズアルゴリズム)

スパムを特定する

クレジットカード詐欺(ディシジョンツリーアルゴリズム)

信用リスクの特定(返済能力の不足と不正なローン)

インターネット広告(ctr事前推定法、線形ロジスティック回帰)

表示される結果ごとに、検索などのユーザーのクリック率を推定すると、ユーザーのクリックの確率が評価され、この確率のサイズに従って表示が調整され、最も可能性の高いポイントが最初にランク付けされます。

推奨システム(協調フィルタリングアルゴリズム)

eコマースの推奨システムです。ユーザーが購入する可能性のあるものを推奨することで、売り上げを増やします。

自然言語処理

感情分析は、個人のコメントを通じて、その個人の可能な性格を分析し、それを分類します。
エンティティの認識。エンティティの特定を試みるために、人や場所の名前などの記事のバックボーン情報を抽出します。
待って。

画像認識(ディープラーニング)

顔認識、および植物が何であるかを知るアリペイの機能

その他の

音声認識、
自動運転、
ビデオ認識、
ジェスチャーコントロール、
インテリジェントロボットなど

3.一般的なアルゴリズムの分類

3.1監督による分類

y = f(x)

教師あり学習:データが属するラベルを明確に示し、次に学習して、最後にモデルを取得します。

分類アルゴリズム
回帰アルゴリズム

教師なし学習:事前に何をトレーニングしたいかわからない

クラスタリングアルゴリズム

半教師あり学習:強化学習とも呼ばれ、最初はトレーニング効果がよくなく、徐々にモデルを強化していきます

3.2モデルによる分類

モデルを生成する(すべてについて話し合うのが良い)

生成モデルでは、最終的に入力パラメーターがあり、モデルはさまざまな結果の確率を提供します。

判別モデル(黒または白)

モデルを識別し、最終的なモデルはあなたに機能を与え、あなたは彼にパラメータを与え、彼はあなたにパラメータを与えます。

4.機械学習の問題解決ルーチン

4.1、目標を決定する

1.ビジネスニーズに応じて目標を決定する
2.履歴データを収集する
3.特徴エンジニアリング(データの前処理、クリーニング、統合)を実行して特徴を抽出する

最終的なモデルがどれほどの効果を達成できるか、ほとんどの要因は、機能エンジニアリングがどの程度うまく行われているかによって異なります。つまり、特徴エンジニアリングは最も重要なステップです

4.2、トレーニングモデル

1.モデルを定義する:式を定義し、各パラメーターを取得するためにトレーニングする必要があります
2.損失関数を定義します:最終結果の偏差のサイズを定義し、最終的にエネルギーベースの方法で予測結果と実際の結果の差を把握します
3.最適化アルゴリズム:損失関数最小を取る

4.3。モデルの評価

1.相互検証
2.効果の評価

元の記事203件を公開 賞賛された186件 210,000回

おすすめ

転載: blog.csdn.net/java_zhangshuai/article/details/105376730