Li Honyi Machine Learning 2023 - クイック スタート機械学習、学習ノート

機械学習のタスクは大きく 3 つのカテゴリに分類されます。

回帰分類生成学習

これら 3 種類のタスクの違いは、出力の種類と目標の違いにあります。

1. 回帰タスクの出力は、住宅価格、株価動向、テストスコアの予測などの数値です。

回帰タスクの目標は、予測値と真の値の間の誤差を最小限に抑える関数を見つけることです

次に、分類タスクの出力は、メールがスパムかどうかの判断、顔や手書き文字の認識などのカテゴリです。

分類タスクの目標は、予測されたクラスと真のクラスの間の一致を最大化する

3. 生成学習タスクの出力は、音声、ビデオ、またはテキストの生成など、新しいデータ サンプルです。生成学習タスクの目標は、出力サンプルの多様性と新規性を維持しながら、出力サンプルと入力サンプルの間の類似性を最大化する関数を見つけることです。

では、ChatGPT はどれに属するのでしょうか?

ChatGPT は、特定のコンテキストに基づいて自然言語会話を生成できるディープ ニューラル ネットワーク ベースの生成学習モデルです。これは、生成学習を複数の分類問題に分解します。つまり、一度に文全体または段落全体を生成するのではなく、一度に 1 つの単語または記号を生成します。この利点は、既存の分類アルゴリズムと損失関数をトレーニングと評価に使用でき、生成プロセスの条件と制約も簡単に制御できることです。

本当に使える機能の見つけ方 - f

回帰、分類、生成学習のいずれであっても、データセットに適合する適切な関数を見つける必要があります。このプロセスには通常、次の 3 つの手順が含まれます。

1.スコープの設定: 候補関数のセット、つまりモデルの構造または形式を決定します。たとえば、線形モデル、決定木モデル、ニューラル ネットワーク モデルなどの使用を選択できます。この範囲は、データ セットの特性と問題の複雑さに応じて選択する必要があり、単純すぎて過小適合が生じたり、複雑すぎて過適合が生じたりしてはなりません。

2.基準の設定: 関数の品質を評価するための基準、つまり損失関数または目的関数を決定します。たとえば、平均二乗誤差、クロスエントロピー、対数尤度などを使用できます。この基準は、予測値と実際の値の間のギャップを反映するだけでなく、最適化が容易になるように、タスクの目標と出力タイプに応じて選択する必要があります。

3.目標の達成: 最良の関数、つまり損失関数を最小化するか、目的関数を最大化するパラメータ値を見つけます。たとえば、勾配降下法、ニュートン法、ランダム検索などを使用できます。このプロセスは、最適解に迅速に収束できるだけでなく、局所最適や過剰適合に陥るのを避けるために、モデルの複雑さとデータセットのサイズに応じて選択する必要があります。

機械学習タスクを実行する前の重要な事前タスクは、どのような種類の関数を見つけるか、つまり何を行うかを決定することです。これには、問題の完全な分析と理解、および問題の明確な背景、目標、制約、評価指標が必要です。

トレーニングデータの量はモデル選択の範囲を設定する上で非常に重要です

トレーニング データの量と質は、関数を見つけるプロセスにとって非常に重要です。一般に、トレーニング データが多ければ多いほど、モデルがより一般的で堅牢な関数を学習するのに役立つ情報と制約が提供されるため、より良い結果が得られます。ただし、トレーニング データが多すぎてはなりません。そうしないと、計算コストが高くなりすぎ、冗長なデータやノイズの多いデータが表示される可能性もあります。したがって、トレーニング データの量と品質に応じてモデルの範囲と複雑さを調整する必要があります。

トレーニング資料が少なく、対応する設定範囲も狭いため、過学習を避けるために「暗記するだけの関数」を含めることは避けてくださいこれは、線形モデルや浅いニューラル ネットワークなど、シンプルだが効果的なモデルを選択する必要があることを意味します。これにより、モデルのパラメーターの数が減り、過学習のリスクが軽減され、モデルの汎化能力が向上します。

学習データが多く、対応する設定範囲も大きくなる可能性があります。これは、ディープ ニューラル ネットワークやアンサンブル学習など、複雑で強力なモデルを選択できることを意味します。これにより、モデルのパラメーターの数が増え、フィッティング能力が向上し、データ内のより複雑で暗黙的な法則を捉えることができます。

AI が生成した音声を例に挙げると、これは典型的な生成学習タスクであり、特定の要件に従って音声を生成できます。スピーチの内容とセマンティクスを生成する方法を考慮するだけでなく、スピーチのトーン、イントネーション、リズム、感情も考慮する必要があります。したがって、音声の生成は非常に困難で価値のある作業です。

音声を生成するには 2 つの戦略があります: (李紅宜氏の比喩によると)

1 つは、 each を分割すること、つまり文字または音素を 1 つずつ生成することであり、各文字は前の文字が完了するまで生成できません。この戦略は比較的時間がかかりますが、生成された音声の一貫性と正確性はより保証されます。

もう 1 つはワンショットです。つまり、文全体または段落全体が一度に生成されます。この戦略は比較的高速ですが、マシンは毎回どのくらいの長さの段落を生成する必要があるかを事前に知る必要があります。

事前に設定された段落の長さ - 次の 2 つの方法で実現できます。

1 つは、長さが常に固定されており、ターミネーター以降の音声がすべて失われることです。この方法はシンプルで実装が簡単ですが、リソースの無駄音声の切り捨てが発生します

もう 1 つは、あらかじめ設定された長さを表す値を機械に生成させ、次にその長さに応じて音声を一度に生成する方法です。この方法はより柔軟で効率的ですが、マシンが長さを予測し、長さがコンテンツと一致していることを確認できる必要があります。

: 画像生成も典型的な生成学習タスクであり、指定された画像またはテキストに基づいて対応する画像を生成できます。画像の内容とスタイルだけでなく、画像の明瞭さ、忠実度、多様性も考慮する必要があります。したがって、非常にやりがいがあり、価値のある仕事でもあります。

画像生成は遅すぎるため、それぞれを突破する戦略を採用できず、画像の全体的な調整を確保することが困難です。使用できるのはワンショット戦略のみです。つまり、イメージ全体が一度に生成されます。そのためには、マシンが高次元で複雑なデータを処理でき、グローバル情報とローカル情報のバランスを取ることができる必要があります。

生成の品質の比較: 各ブレイクと一度の配置

 

生成の品質は、正確さ、流暢さ、一貫性、多様性、新規性などの複数の側面から評価できます。生成タスクやシナリオが異なれば、評価基準や評価基準も異なる場合があります。一般に、個別のブレークアウト戦略は、生成された結果を徐々に調整および修正してエラーや不一致を回避するため、精度、流暢性、一貫性の点で優れています。ワンショット戦略は、以前に生成された結果に制限されたり影響されたりすることなく、一度に完全な結果を生成できるため、多様性と新規性の点で優れています。

では、2 つの方法の長所と短所をどのように組み合わせればよいでしょうか?

生成の品質と効率を考慮するために、各攻撃を 1 回限りの戦略と組み合わせることができます。

まず、ワンショット戦略を使用して暫定的な結果を生成し、
次に、壊れた戦略をそれぞれ使用して最適化および改善します。

このように、ワンスインプレース戦略を使用して大まかなフレームワークを迅速に生成でき、その後、各分割戦略を使用して詳細を洗練し、改善することができます。この方法は、人間が文章を書いたり絵を描いたりするときのプロセスに似ています。つまり、輪郭やスケッチから始めて、徐々に修正して磨きをかけます。

具体的な例としては、画像生成のモデルである拡散モデルが挙げられ、ランダムなノイズから徐々に元の画像を復元していく逆拡散処理として画像生成を行うことができる。これは、連続して数回行うワンショットのジョブとして考えることができ、そのたびにイメージ全体が生成されますが、そのたびに前回よりも元のイメージに近づきます。このようにして、生成された画像の全体的な調整と多様性が保証され、拡散プロセスのノイズ レベルを制御することで、生成された画像の明瞭さと忠実度が調整されます。

 

要約する

この記事では、回帰、分類、生成学習という 3 つの一般的なタイプの機械学習タスクを紹介し、ChatGPT と AI 生成音声を例として取り上げ、さまざまなタイプのタスクの出力タイプ、目標、方法、評価指標を分析します。

この記事では、関数を見つけるための 3 つのステップ (範囲の設定、基準の設定、目標の達成) についても説明し、トレーニング データの量がモデルの選択に与える影響についても説明します。

最後に、この論文では、個別の中断と 1 回のインプレースという 2 つの生成戦略について説明し、相互に学習する方法 (1 回のインプレースとその後の個別の中断) を提案し、拡散モデルを例として使用して説明します。 。

おすすめ

転載: blog.csdn.net/fantastick99/article/details/129840256