NLP 70 年! スタンフォード大学のマニング教授は、「基本モデルは 10 年で AGI になれるか?」という長い記事を要約しています。

出身: 新志園

NLP グループに入る -> NLP 交換グループに参加する

[Xinzhiyuan 入門]手動ルール、ニューラル ネットワークから Transformer 基本モデルに至るまで、自然言語処理の未来はマルチモダリティを統合し、汎用人工知能に移行することです。

過去 10 年間、単純なニューラル ネットワーク計算と大規模なトレーニング データのサポートのみに依存して、自然言語処理の分野で大きな進歩が遂げられました。このトレーニングから得られる、BERT、GPT などの事前トレーニング済み言語モデル。 3 およびその他のモデルには、強力な一般言語の理解、生成、推論機能が備わっています。

少し前に、スタンフォード大学のクリストファー D. マニング教授は、「人間の言語の理解と推論」に関する論文を Daedalus 誌に発表しました。彼は主に自然言語処理の発展の歴史を振り返り、基本的な言語処理の将来の発展の見通しを分析しました。モデル。

dab865f12b97e5cc98606f6037c93ab0.png

論文リンク: https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning

3c8ee46db970a3bcc118b0aeef9137fa.png

論文の著者であるクリストファー・マニング氏は、スタンフォード大学のコンピューターサイエンスと言語学の教授であり、深層学習を自然言語処理に適用するリーダーであり、彼の研究は、機械学習手法を使用して計算言語学の問題に対処し、コンピューターが人間の言語をインテリジェントに処理、理解、生成します。

マニング教授は、ACM フェロー、AAAI フェロー、および ACL フェローです。彼の著書の多くには、「統計的自然言語処理の基礎」や「情報検索入門」など、古典的な教科書となっています。彼のコース、スタンフォード CS224n「自然のための深層学習」言語処理」 これは、数え切れないほどの NLPer が始めるために必読の書です。

NLP の 4 つの時代

最初の時代 (1950 ~ 1969 年)

NLP の研究は、最初は機械翻訳の研究から始まりました。当時、人々は、翻訳タスクが第二次世界大戦中の暗号解読の成果に基づいて発展し続けると信じていました。また、冷戦の両側でも、次のようなシステムを開発していました。他国の科学成果を翻訳する研究が行われていますが、この時期には、自然言語、人工知能、機械学習の構造についてはほとんど何もわかっていません。

計算量もほとんどなく、利用可能なデータもほとんどありませんでした。初期のシステムは大々的に宣伝されましたが、これらのシステムは、単語レベルの翻訳ルックアップと、単語の語形変化 (形態学) と、語順。

第二の時代(1970年~1992年)

この時期には、Terry Winograd の SHRDLU、Bill Woods の LUNAR、Roger Schank の SAM、Gary Hendrix の LIFER、Danny Bobrow の GUS など、自然言語での構文や引用などの現象の処理の洗練さと深さを実証する一連の NLP デモンストレーション システムが開発されました。どちらも手作業で構築されたルールベースのシステムであり、データベース クエリなどのタスクにも使用できます。

言語学と知識ベースの人工知能は急速に進歩しており、この時代の 20 年間で、宣言型言語知識と手続き型処理の間に明確な境界があり、言語の利点を活用した、新世代の手作りシステムが誕生しました。学術理論。

第 3 の時代 (1993 ~ 2012)

この期間中に、利用可能なデジタル テキストの数が大幅に増加し、NLP の開発は徐々に言語理解を深くし、数千万語のテキストから位置や比喩的な概念などの情報を抽出することに移行しました。単語分析に基づいているため、ほとんどの研究者は主に、タグ付けされた単語の意味、会社名、ツリーバンクなどの注釈付き言語リソースに焦点を当て、教師あり機械学習手法を使用してモデルを構築します。

第4の時代(2013年~現在)

深層学習または人工ニューラル ネットワーク手法が開発され始めました。これにより、長距離にわたるコンテキストをモデル化できます。単語や文章は、数百次元または数千次元の実数値ベクトル空間で表されます。ベクトル空間内の距離は、意味や文法の類似性を表すことができます。ただし、タスクの実行は以前の教師あり学習と同様です。

2018 年に、非常に大規模な自己教師ありニューラル ネットワーク学習が大きな成功を収めました。大量のテキスト (数十億単語) を入力するだけで知識を学習できます。基本的な考え方は、「最初の数単語が与えられると」継続的に予測することです。つまり、何十億回も予測を繰り返し、エラーから学習し、質問応答やテキスト分類タスクに使用できます。

事前トレーニングされた自己教師ありメソッドの効果は革命的であり、人間による注釈を必要とせずに、その後の簡単な微調整でさまざまな自然言語タスクに使用できる強力なモデルを生成します。

モデルアーキテクチャ

2018 年以降、NLP アプリケーションで使用される主要なニューラル ネットワーク モデルは、Transformer ニューラル ネットワークに変換されました。中心となるアイデアはアテンション メカニズムです。単語の表現は、他の位置からの単語表現の重み付けされた組み合わせとして計算されます。

Transofrmer の共通の自己監視型目標は、テキスト内に出現する単語をマスクし、その位置のクエリ、キー、および値のベクトルを他の単語と比較し、注意の重みと平均の重みを計算し、完全に接続された層と正規化 層と残差を接続して新しい単語ベクトルを生成し、それを何度も繰り返してネットワークの深さを増やします。

172d948ea73b47e69b50b087e73bc0b2.png

Transformer のネットワーク構造は複雑ではなく、関連する計算は単純ですが、モデル パラメーターの数が十分に多く、トレーニングと予測に大量のデータが使用される場合、モデルは自然言語のほとんどの構造を検出できます。構文: 単語の構造、含意、事実知識など。

プロンプト生成

2018 年から 2020 年にかけて、研究者が大規模な事前トレーニング済み言語モデル (LPLM) を使用する主な方法は、少量の注釈付きデータを使用してモデルを微調整し、カスタム タスクに適したものにすることでした。

しかし、GPT-3 (Generative Pre-training Transformer-3) のリリース後、プロンプトを入力するだけで、トレーニングされていない新しいタスクでもモデルが適切に完了できることに研究者は驚きました。

対照的に、従来の NLP モデルは、慎重に設計された複数のコンポーネントからパイプライン方式で組み立てられ、最初に文の構造とテキストの低レベルのエンティティをキャプチャし、次に、特定のフィールドに入力する前に高レベルの意味を識別します。実行コンポーネント。

ここ数年、企業はこの従来の NLP ソリューションを、特定のタスクを実行するように微調整された LPLM に置き換え始めました。

機械翻訳

初期の機械翻訳システムは、限られたドメインの限られた言語構造しかカバーできませんでした。

2006年に発売されたGoogle翻訳は、初めて大規模な対訳コーパスから統計モデルを構築し、2016年にGoogle翻訳がニューラル機械翻訳システムに変換され、品質が大幅に向上し、2020年に再度アップデートされました。 Transformer に基づくニューラル翻訳システムに移行すると、2 つが必要なくなります。異なる言語の並列コーパスを使用する代わりに、事前にトレーニングされた巨大なネットワークを使用して、特別なトークンを介して言語タイプを翻訳します。

質疑応答タスク

質問と回答システムは、テキスト コレクション内の関連情報を検索し、特定の質問に対する回答を提供する必要があります。販売前および販売後のカスタマー サポートなど、下流に直接商用アプリケーションのシナリオが多数あります。

最新のニューラル ネットワーク質問応答システムは、テキスト内に存在する回答を抽出する精度が高く、回答のないテキストを分類することにも非常に優れています。

分類タスク

テキスト内の人物や組織の名前を特定したり、テキスト内の製品に関するセンチメント (肯定的または否定的) を分類したりするなど、一般的な従来の NLP タスクでは、現時点で最適なシステムは依然として LPLM に基づいて微調整されています。

テキストの生成

生成システムは多くのクリエイティブな用途に加えて、スポーツレポートや自動要約などの定型的なニュース記事を作成したり、放射線科医の検査結果に基づいてレポートを生成したりすることもできます。

しかし、うまく機能する一方で、研究者たちは、これらのシステムが実際に何をしているのかを理解しているのか、それとも単なる無意味で複雑な書き換えに過ぎないのか疑問に思っています。

意味

言語学、言語哲学、およびプログラミング言語は、意味を記述するすべての研究方法、つまり表示意味論または指示理論です。単語、語句、または文の意味は、それが記述する世界の意味です。一連のオブジェクトまたは状況 (またはその数学的抽象化)。

現代の NLP の単純な分布意味論では、単語の意味はその文脈の単なる説明であると考えられています。マニングは、意味は言語形式と他のものの間の接続ネットワークを理解することから生まれると考えています。言語形式が十分に密であれば、言語形式は重要性をよく理解してください。

言語理解タスクにおける LPLM の成功と、大規模な自己教師あり学習をビジョン、ロボット工学、ナレッジ グラフ、バイオインフォマティクス、マルチモーダル データなどの他のデータ モダリティに拡張する幅広い見通しにより、AI はより一般的になります。

ベースモデル

BERT や GPT-3 などの初期の基本モデルに加えて、言語モデルをナレッジ グラフ ニューラル ネットワーク、構造化データ、またはその他の感覚データに接続して、DALL-E モデルなどのマルチモーダル学習を実現することもできます。画像とテキストのペアのコーパスを自己教師あり学習した後、対応する画像を生成することで新しいテキストの意味を表現できます。

私たちはまだ基本モデル開発の初期段階にありますが、将来的には、ほとんどの情報処理と分析タスク、さらにはロボット制御のようなタスクさえも、比較的少数の基本モデルで処理できるようになるでしょう。

大規模な基本モデルのトレーニングには費用と時間がかかりますが、トレーニングが完了すると、それをさまざまなタスクに適応させるのは非常に簡単で、モデルの出力は自然言語を使用して直接調整できます。

しかし、このアプローチにはリスクもあります。

1. 基本モデルをトレーニングできる機関が享受する権力と影響力は大きすぎる可能性があります。

2. 多数のエンド ユーザーがモデルのトレーニング中にバイアスに悩まされる可能性があります。

3. モデルとそのトレーニング データは非常に大きいため、特定の環境でモデルを使用するのが安全かどうかを判断するのは困難です。

これらのモデルは、最終的には世界を漠然としか理解できず、人間レベルの慎重な論理的または因果的推論能力に欠けていますが、基本モデルの広範な妥当性は、適用できるシナリオが多数あることも意味しており、それらは現実のモデルに開発される可能性があります。次の 10 年 一般的な人工知能。

参考文献:

https://direct.mit.edu/daed/article/151/2/127/110621/Human-Language-Understanding-amp-Reasoning


NLP グループに入る -> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132750065