機械学習の概要
機械学習はアルゴリズムのクラスの総称です。これらのアルゴリズムは、大量の履歴データから隠されたルールをマイニングし、それらを予測または分類に使用しようとします。具体的には、機械学習は関数を見つけるものと見なすことができ、入力はサンプルデータです。 、出力は望ましい結果ですが、この関数は複雑すぎて不便に表現できません。機械学習の目標は、学習した関数をトレーニングサンプルで適切に実行するだけでなく、「新しいサンプル」にも適切に適用できるようにすることです。学習した関数が新しいサンプルに適用する能力は、汎化能力と呼ばれます。
機械学習のステップは、次の3つのステップに分かれています。
- 通常、適切なモデルの選択は実際の問題によって異なります。さまざまな問題やタスクについては、適切なモデルを選択する必要があります。モデルは関数のセットです。
- 関数の品質を判断するには、通常は損失関数と呼ばれる測定値を決定する必要があります。損失関数の決定は、一般にユークリッド距離を使用する回帰問題や、交差エントロピーコストを使用する分類問題など、特定の問題にも依存します機能。
- 「最良の」機能を見つけること、および多くの機能の「最良の」機能をすばやく見つける方法では、このステップが最大の困難です。一般的に使用される方法には、勾配降下アルゴリズム、最小二乗法、およびその他の手法が含まれます。
「最高の」機能を習得したら、新しいサンプルでテストする必要があります。新しいサンプルでうまく機能する場合にのみ、「良い」機能になります。
機械学習分類
- タスクタイプ別に、機械学習モデルは回帰モデル、分類モデル、構造化学習モデルに分類できます。回帰モデルは予測モデルとも呼ばれ、出力は列挙できない値です。分類モデルは、バイナリ分類モデルと多分類モデルにさらに分けられます。一般的な2つの分類問題にはスパムフィルタリングが含まれ、一般的な多分類問題には自動ドキュメント分類が含まれます。構造化学習モデルの出力は、画像のセマンティック分析などの固定長の値ではなくなり、出力は画像のテキスト記述です。
- メソッドの観点から、線形モデルと非線形モデルに分けることができます。線形モデルは比較的単純ですが、その役割は無視できません。線形モデルは非線形モデルの基礎です。多くの非線形モデルは線形モデルに基づいて変換されます。 。非線形モデルは、SVM、KNN、決定木などの従来の機械学習モデルと、深層学習モデルに分割できます。
- 学習理論によれば、機械学習モデルは、教師あり学習、半教師あり学習、教師なし学習、転移学習、強化学習に分類できます。教師あり学習は、トレーニングサンプルがラベル付けされている場合に実行されます。トレーニングサンプルが部分的にラベル付けされ、部分的にラベル付けされていない場合は部分的に監視されます。すべてのトレーニングサンプルがラベル付けされていない場合は、教師なし学習です。転移学習は、すでにトレーニングされたモデルパラメータを新しいモデルに転移して、新しいモデルのトレーニングを支援することです。強化学習は最適な学習戦略であり、特定の環境での現在の状態に応じてオントロジーを機能させ、最大の利益を得ることができます。強化学習と教師あり学習の最大の違いは、すべての決定が正しいか間違っているかではありませんが、最も累積的な報酬を得ることを期待しています。
機械学習関連アルゴリズム
教師あり学習
- 決定木
- 意思決定ツリーは、ツリー図または意思決定モデルと、偶発的なイベント、リソースコスト、およびユーティリティの結果を含む一連の可能性を使用する意思決定支援ツールです。
- ビジネスの意思決定の観点からすると、意思決定ツリーは、ほとんどの場合、正しい意思決定の確率を評価するために人々が理解しなければならない最小のyes / no質問です。方法としては、論理的な結論に到達するための構造化された体系的な方法で問題を解決することができます。
- 単純ベイズ分類
- 単純ベイズ分類器は、ベイズの定理と特徴間の強力な(単純な)独立した仮定に基づく確率的分類器の単純なクラスです。
- 最小二乗
- 最小二乗法は、線形回帰を計算する方法です。
- ロジスティック回帰
- ロジスティック回帰は、1つ以上の説明変数を使用して二項結果を表すことができる強力な統計手法です。これは、論理関数を使用して確率を推定し、カテゴリー依存変数と1つ以上の独立変数間の関係を測定します。後者は、累積論理分布に従います。
- サポートベクターマシン
- SVMはバイナリ分類アルゴリズムです。N次元座標の2種類の点を指定すると、SVMは(N-1)次元の超平面を生成して、これらの点を2つのグループに分割します。平面上に直線的に分離できる2種類のポイントがあるとします。SVMは直線を検出し、これらのポイントを2つのタイプに分割し、このラインをこれらのすべてのポイントからできるだけ離します。
- 統合方法
- 統合方法は学習アルゴリズムであり、一連の分類子を作成し、それらの予測結果を介して投票に重み付けすることにより、新しいデータポイントを分類します。
教師なし学習
- クラスタリング法
- クラスタリングとは、一連のオブジェクトをグループ化するタスクです。目的は、同じグループ(クラスタ)内のオブジェクトを他のグループ内のオブジェクトに類似させることです。
- 主成分分析
- PCAは、直交変換を使用して、線形無相関変数のセットの値に関連する可能性のある変数セットの観測値を変換する統計プロセスです。変換された変数は、いわゆる主成分です。
- 特異値分解
- 線形代数では、SVDは複素行列の因数分解です。
- 独立成分分析
- ICAは統計的手法であり、主に確率変数、測定値、または信号セットの隠れた要因を明らかにするために使用されます。ICAは、観測された多変量データの生成モデルを定義します。これは通常、サンプルとして大規模なデータベースです。モデルでは、データ変数がいくつかの未知の潜在変数によって線形に混合され、混合方法も不明であると想定されています。潜在変数は非ガウスであり、互いに独立していると想定され、観測データの独立成分と呼ばれます。
機械学習の応用
近年、機械学習と人工知能のサブフィールドがますます普及しており、機械学習手法を用いた多くの技術が生活に応用されています。機械学習の一般的な応用分野は次のとおりです。
- スパムを判断する
- ニュースカテゴリを分類する
- 感情を表現するテキストを判断する
- 顔認識
- ネットワーク侵入検知
- IoT侵入検知
- クレジットスコア
- 製品収益の予測
深層学習
はじめに
ディープラーニングは一種の機械学習であり、機械学習は人工知能を実現するために必要な経路です。深層学習の概念は、人工ニューラルネットワークの研究に端を発しています。複数の隠れ層を持つ多層パーセプトロンは、深層学習構造です。ディープラーニングは、低レベルの機能を組み合わせて、より抽象的な高レベルの表現属性カテゴリまたは機能を形成し、データの分散機能表現を発見します。ディープラーニングを研究する動機は、分析と学習のために人間の脳をシミュレートするニューラルネットワークを構築することです。これは、人間の脳のメカニズムを模倣して、画像、音声、テキストなどのデータを解釈します。
ディープラーニングは、パターン分析手法のクラスの総称です。特定の研究内容に関して、主に3種類の手法が含まれます。
(1)畳み込み演算に基づくニューラルネットワークシステム、すなわち畳み込みニューラルネットワーク(CNN)。
(2)近年広く注目されている2種類の自己コーディングとスパースコーディングを含む、多層ニューロンに基づく自己コーディングニューラルネットワーク。
(3)多層自己符号化ニューラルネットワークの形で事前トレーニングし、さらに識別情報を組み合わせてニューラルネットワークの重みの深い信頼ネットワークをさらに最適化する