人工知能、機械学習、自然言語処理、深層学習などの本質的な違いは何ですか?

一般的なメディアによってこれらの用語に割り当てられた意味は、機械学習の科学者やエンジニアの理解と一致しないことがよくあります。したがって、これらの用語を使用する場合は、正確な定義を行うことが重要です。その関係のベン図を図 1.2 に示します。

図 1.2 自然言語処理、人工知能、機械学習、深層学習などの用語間の関係を示すベン図

1 人工知能

人工知能は、人間が通常実行するタスクをコンピューターがシミュレートして実行できるようにすることに特化した研究分野として、20 世紀半ばに登場しました。初期のアプローチは、対象となるさまざまなコンテキストで入力データを操作するための明示的なルールを手動で導出し、ハードコーディングすることに焦点を当てていました。このパラダイムは、シンボリスト AIと呼ばれることがよくありますチェスのような明確に定義された問題にはうまく機能しますが、視覚や音声認識などの知覚クラスの問題となると、大きく間違ってしまいます。人間がルールを明示的に指定するのではなく、コンピューターがデータから新しいルールを学習できる新しいパラダイムが必要です。これが機械学習の隆盛につながりました。

2 機械学習

1990 年代には、機械学習パラダイムが人工知能の分野で主流になりました。現在では、考えられるすべての状況を明示的にエンコードするのではなく、コンピューターは対応する入力サンプル データと出力サンプル データを使用してモデルをトレーニングし、入力と出力の間のマッピング関係を自動的に抽出します。機械学習には大量の数学と統計が含まれますが、大規模で複雑なデータセットを扱う傾向があるため、数学理論よりも実験、経験的観察、工学に依存します。

機械学習アルゴリズムは入力データから表現を学習し、それを適切な出力に変換します。これを行うには、機械学習モデルにはデータのセット (文分類タスクにおける文入力のセットなど) と、対応する出力のセット (文分類の {"肯定的"、"否定的"} ラベルなど) が必要です。また、機械学習モデルの現在の出力とデータセットの予想される出力の間の偏差を測定する損失関数も必要です。読者の理解を助けるために、バイナリ分類タスクを考えてみましょう。このタスクでは、機械学習の目標は、図 1.3 に示すように、決定境界と呼ばれる関数を見つけることです。その役割は、さまざまな種類のデータ ポイントを完全にセグメント化することです。この決定境界は、トレーニング セット外の新しいデータ インスタンスでも適切に機能するはずです。決定境界の発見を迅速化するために、リーダーは最初にデータを前処理するか、セグメント化しやすい形式に変換する必要がある場合があります。仮説セットと呼ばれる可能な関数の集合からターゲット関数を検索します。この検索は自動的に行われるため、学習と呼ばれる機械学習の最終目標を達成しやすくなります。

図 1.3 機械学習における主要な動機付けタスクの例 (この図に示すケースでは、仮説セットは円弧になる可能性があります)

機械学習は、損失関数に含まれるフィードバック信号のガイダンスを使用して、事前に定義された仮説のセット内で入力と出力の間の最適なマッピング関係を自動的に検索します。仮説セットの性質によって、考慮されるアルゴリズムのクラスが決まります。これらについては後で簡単に紹介します。

古典的な機械学習は、ナイーブ ベイズなどの確率的モデリング手法から始まりました。ここでは、入力データの特徴が独立していると楽観的に仮定することもできます。ロジスティック回帰は確率的モデリング アプローチであり、多くの場合、データ サイエンティストがデータセットに対して最初に試みるアプローチです。それと単純ベイズの仮説セットはどちらも線形関数のセットです。

ニューラル ネットワーク (ニューラル ネットワーク) は 1950 年代に誕生しましたが、バックプロパゲーションと確率的勾配降下法 (確率的勾配降下法) アルゴリズムを組み合わせた、大規模ネットワークをトレーニングする効果的な方法が発見されたのは 1980 年代になってからでした。バックプロパゲーションはネットワークの勾配を計算する方法を提供しますが、確率的勾配降下法はこれらの勾配を使用してネットワークをトレーニングします。

本書の付録 B では、これらの概念を簡単に紹介します。1989 年に初めてニューラル ネットワークの適用に成功しました。当時、ベル研究所のヤン・ルカン氏は手書き数字を認識するシステムを確立し、これは後に米国郵便公社で広く使用されました。

カーネル法は1990 年代から普及しました。このアプローチでは、図 1.3 に示すように、点セット間の適切な決定境界を見つけることによって分類問題を解決しようとします。最も一般的なカーネル メソッドは、サポート ベクター マシン (SVM) です。これは、データを新しい高次元表現 (超平面が効率的な境界になります) にマッピングすることによって適切な決定境界を見つけようとし、超平面と各カテゴリ内の最も近いデータ ポイントの間の距離を最大化します。カーネル法を使用すると、高次元空間での高い計算コストが削減されます。カーネル関数は、高次元データ表現を明示的に計算する代わりに点間の距離を計算するために使用され、その計算コストは​​高次元空間での計算コストよりもはるかに小さくなります。この方法には理論的な裏付けがしっかりしており、数学的な解析が容易であり、カーネル関数が線形の場合には方法も線形となるため、この方法は非常に人気があります。ただし、このアプローチでは、最初に手動の特徴量エンジニアリング手順が必要であり、エラーが発生しやすいため、知覚機械学習の問題に関しては多くの点が望まれます。

デシジョン ツリー (デシストン ツリー) と関連手法は、現在でも広く使用されている別のクラスの手法です。デシジョン ツリーは、意思決定とその結果をツリー構造としてモデル化する意思決定支援ツールです。これは本質的にはグラフであり、グラフ内の接続された 2 つのノード間にはパスが 1 つだけあります。または、ツリーは、入力値を出力カテゴリに変換するフローチャートとして定義できます。デシジョン ツリーは 2010 年代に普及し、カーネル手法よりもデシジョン ツリー ベースの手法が普及しました。この人気の理由は、デシジョン ツリーの視覚化、理解、説明が容易であるという事実によるものです。読者の理解を助けるために、図 1.4 に、入力 {A,B} をクラス 1 (A < 10 の場合)、クラス 2 (A ≥ 10 かつ B ≤ 25 の場合)、およびクラス 3 (その他の場合) に分類する決定木構造の例を示します。

図 1.4 決定木構造の例

ランダム フォレストは、デシジョン ツリーを適用するための実用的な機械学習方法を提供します。このアプローチには、多数の特殊なデシジョン ツリーを生成し、その出力を結合することが含まれます。ランダム フォレストは非常に柔軟で一般化可能なため、ロジスティック回帰の後の 2 番目のベースライン アルゴリズムとしてよく使用されます。2010 年に Kaggle オープン コンペティション プラットフォームが開始されると、ランダム フォレストはすぐにプラットフォーム上で最も広く使用されるアルゴリズムになりました。2014 年に、Gradient Boosting Machine (GBM) がこれに取って代わりました。どちらも、以前の反復でのモデルの弱点を排除する新しいデシジョン ツリー ベースのモデルを反復的に学習するという原則に基づいて機能します。この記事の執筆時点では、これらは非知覚的な機械学習の問題に対する最良のアプローチであると広く考えられています。Kaggle では今でも人気があります。

2012 年頃、GPU でトレーニングされた畳み込みニューラル ネットワーク(CNN) が毎年恒例の ImageNet コンテストで優勝し始め、現在のディープ ラーニングの「黄金時代」の到来を告げました。CNN は、物体認識や物体検出など、すべての主要な画像処理タスクを支配し始めました。同様に、人間の自然言語の処理、つまり NLP にもその応用例を見つけることができます。ニューラル ネットワークは、入力データの意味がますます増大する一連の階層表現を通じて学習します。これらのレイヤーの数によってモデルの深さが決まります。これが、ディープ ニューラル ネットワークをトレーニングするプロセスである「ディープ ラーニング」という用語の由来です。深層学習と区別するために、これまでに説明したすべての機械学習手法は、浅い学習手法または従来の学習手法と呼ばれることがよくあります。深さが浅いニューラル ネットワークも浅いと分類されることがありますが、伝統的に分類されるわけではないことに注意してください。ディープラーニングは機械学習の分野を支配するようになりました。知覚の問題を解決するための最初の選択肢であるディープラーニングが、処理できる問題の複雑さの点で「革命」を引き起こしたことは明らかです。

ニューラル ネットワークは神経生物学にインスピレーションを得ていますが、私たちの神経系がどのように機能するかを示す真のモデルではありません。ニューラル ネットワークの各層は、入力データの変換方法を層に正確に指示する一連の数値 (層の重みと呼ばれる) によってパラメータ化されます。ディープ ニューラル ネットワークでは、パラメーターの総数は簡単に数百万に達することがあります。前述のバックプロパゲーション アルゴリズムは、正しいパラメータのセットを見つけるために、つまりネットワークを学習するために使用されるアルゴリズム エンジンです。図 1.5(a) は、完全に接続された 2 つの隠れ層を持つ単純なフィードフォワード ニューラル ネットワークの視覚的表現を示しています。図 1.5(b) は、図を簡略化するためによく使用される同等の簡略化された表現を示しています。ディープ ニューラル ネットワークには、このような層が多数含まれます。このフィードフォワード特性を持たないよく知られたニューラル ネットワーク構造は、長短期記憶 (LSTM)リカレント ニューラル ネットワーク(RNN) です。長さ 2 の固定長入力を受け取る図 1.5 のフィードフォワード構造とは異なり、LSTM は任意の長さの入力シーケンスを処理できます。

図 1.5 完全に接続された 2 つの隠れ層を持つ単純なフィードフォワード ニューラル ネットワーク

前述したように、「ディープラーニング革命」を引き起こしたのは、ハードウェア、利用可能な大量のデータ、アルゴリズムの進歩でした。ビデオ ゲーム市場向けに特別に開発された GPU とインターネットの成熟により、ディープ ラーニング用に前例のない量の高品質データが提供され始めています。Wikipedia、YouTube、ImageNet などのデータ ソースが利用できるようになったことで、コンピューター ビジョンと NLP の進歩が促進されました。ニューラル ネットワークの機能により、高価な手動特徴量エンジニアリングの必要性が排除されます。これは、浅い学習手法を知覚データにうまく適用するために必要な条件であり、おそらく深層学習の使いやすさに影響を与える要因です。NLP は知覚の問題であるため、ニューラル ネットワークも本書で焦点を当てているタイプの機械学習アルゴリズムですが、唯一のアルゴリズムではありません。

3 自然言語処理

言語は人間の認識の最も重要な側面の 1 つです。真の人工知能を作成するには、機械が人間の言語を解釈、理解、処理、操作する方法を学ぶ必要があることに疑いの余地はありません。このため、人工知能と機械学習の分野では NLP の重要性がますます高まっています。

AI の他のサブ分野と同様に、文章分類や感情分析などの NLP 問題に対する初期のアプローチは、明示的なルールまたはシンボリスト AI に基づいていました。これらの初期の方法を採用したシステムは、多くの場合、新しいタスクに一般化できず、簡単に壊れてしまいます。1990 年代にカーネル手法が登場して以来、人々は特徴エンジニアリング、つまり入力データを浅い学習手法が正しく予測できる形式に手動で変換することに取り組んできました。特徴量エンジニアリングは時間がかかり、タスクが固有であるため、ドメインの専門家以外が習得するのは困難です。2012 年頃、ディープラーニングの出現により、NLP に真の革命が起こりました。ニューラル ネットワークの一部のレイヤーで適切な機能を自動的に設計できるため、新しいタスクや問題に取り組むための機能エンジニアリングの敷居が低くなります。その後、トレーニング中にさまざまなハイパーパラメータを調整するだけでなく、特定のタスクに適したニューラル ネットワーク アーキテクチャを設計することに取り組みます。

NLP システムをトレーニングするための標準的なアプローチは、まず大量のデータ ポイントを収集し、次に文章やドキュメントの感情分析のタスクで各データ ポイントにラベル (「ポジティブ」または「ネガティブ」など) を付けることです。最後に、これらのデータ ポイントは機械学習アルゴリズムに提供され、入力信号と出力信号のマッピング関係の最適な表現が学習され、学習されたモデルは新しいデータ ポイントでも良好に機能します。NLP や機械学習の他のサブフィールドでは、このプロセスは教師あり学習パラダイムと呼ばれることがよくあります。手動アノテーション プロセスは、代表的なマッピングを学習するための「監視信号」を提供します。また、データ点にラベルを付けたことがない学習パラダイムは、教師なし学習(unsupervised learning)パラダイムと呼ばれます。

今日の機械学習アルゴリズムとシステムは、生物学的学習システムの直接のレプリカではなく、そのようなシステムのモデルとみなされるべきではありませんが、ある意味で進化生物学からインスピレーションを得ており、大きな進歩につながります。従来、教師あり学習プロセスが、新しいタスク、言語、またはアプリケーション ドメインごとに最初から繰り返されることに欠陥があるように思えます。このプロセスは、自然システムが以前に取得した知識に基づいて学習し、それを再利用する方法とはやや逆です。それでも、知覚タスクをゼロから学習することは、特に機械翻訳、質問応答システム、チャットボットにおいて大きな進歩を遂げましたが、それでもいくつかの欠点があります。特に、今日のシステムは、入力信号の関連サンプルの分布における急激な変化に対して堅牢ではありません。言い換えれば、システムは特定の種類の入力で適切にパフォーマンスを発揮することを学習します。入力タイプを変更すると、パフォーマンスが大幅に低下し、場合によっては致命的な障害が発生する可能性があります。さらに、AI をより利用しやすくし、中小企業の平均的なエ​​ンジニアや、大規模なインターネット企業のリソースを持たない人でも NLP テクニックにアクセスできるようにするには、他の人が学んだことをダウンロードして再利用できる機能が重要になります。これは、母国語が英語や、事前トレーニングされたモデルが存在するその他の一般的な言語ではない地域の人々にとっても重要です。また、その地域特有のクエストや、これまで見たことのない新しいクエストに挑戦する人にとっても重要です。転移学習は、これらの問題のいくつかに対する解決策を提供します。

転移学習により、人々はある環境から別の環境に知識を伝達できます。環境は、特定のタスク、ドメイン、言語の組み合わせとして定義されます。初期環境はソース環境と呼ばれ、最終環境はターゲット環境と呼ばれます。知識の伝達の容易さと成功は、ソース環境とターゲット環境の類似性に依存します。当然のことながら、ある意味でソース環境と「似ている」ターゲット環境 (本書の後半で定義します) は、移行が容易で成功しやすくなります。

Word2Vec や Sent2Vec などの事前学習済みの埋め込みを使用して単語をベクトル化することが一般的であるため、転移学習はほとんどの実践者が認識しているよりもずっと早くから NLP で使用されてきました (これについてはセクション 1.3 で詳しく説明します)。浅い学習方法では通常、これらのベクトルを特徴として使用します。両方のテクニックについてはセクション 1.3 と第 4 章で詳しく説明し、本書全体でさまざまな方法で適用しています。この一般的なアプローチは、最初にラベルなしでこれらの埋め込みをトレーニングするために使用される教師なし前処理ステップに依存しています。このステップからの知識は教師あり学習コンテキストの特定のアプリケーションに転送され、そこで事前トレーニングから学習された知識がさらに処理され、当面の浅い学習問題に関連するラベル付きサンプルのより小さなセットに特化されます。伝統的に、教師なし学習ステップと教師あり学習ステップを組み合わせたこのパラダイムは、半教師あり学習と呼ばれてきました。

この記事は「自然言語処理移行学習演習」からの抜粋です。

1 冊の本で、ChatGPT の背後にあるテクノロジーである自然言語処理転移学習を理解し、浅いものから深いものまで機械学習の新しい領域を解き放ち、NLP 転移学習の謎をマスターし、モデルを目立たせることができます。

転移学習は、機械学習と人工知能の分野における重要な手法として、コンピューター ビジョン、自然言語処理 (NLP)、音声認識などの分野で広く使用されています。この本は転移学習テクノロジーの実践的な入門書であり、読者が自然言語処理モデルを深く実践できるように導きます。この本では、まず、機械学習の主要な概念をレビューし、機械学習の開発の歴史と NLP 転移学習の進歩を紹介します。次に、いくつかの重要な NLP 転移学習手法 (NLP 浅い転移学習と NLP 深い転移学習) について詳しく説明します。最後に、NLP 転移学習の分野の重要なサブフィールド (主要な機能として Transformer を使用する深層転移学習テクノロジ) について説明します。読者は、電子メールスパム分類器、IMDb 映画レビューセンチメント分類器、自動ファクトチェッカー、質問応答システム、翻訳システムなどを含む、既存の最先端モデルを実際のアプリケーションに適用することを実践的に体験できます。

この本は、文章が簡潔で、議論が鋭く、階層構造が明確なので、NLP の基礎を備えた機械学習およびデータ サイエンスに関連する開発者が読むのに適しているだけでなく、大学でコンピュータおよび関連専攻を専攻する学生の参考書としても適しています。

おすすめ

転載: blog.csdn.net/epubit17/article/details/131747550
おすすめ