6,000 語の解釈: 現在の大規模言語モデル LLM 研究における 10 の主要な課題

大規模な言語モデルが一定期間にわたって急速に開発された後、現在の主流の研究の方向性と共通の課題は何でしょうか? この記事の著者であるChip Huyenの許可を得て、Afatu がこの記事を翻訳しました。Twitter @chiproで Chip Huyen をフォローすることも歓迎します。 

誰でもモーメントに転送してください~~こうすることで、Rabbit はより良いコンテンツを投稿する意欲が高まります~~

※この記事を転載する場合は、必ず著者名、訳者名、参考文献へのリンクを明記してください。

LLM 研究における未解決の課題

※この記事は約6,600文字、執筆:Chip Huyen、翻訳:Alpha Rabbit

ソースリンク: https://huyenchip.com/2023/08/16/llm-research-open-challenges.html

大規模な言語モデルをより完全なものにするという目標に向かって、これほど多くの賢い人々が同時に共通の目標に向かって取り組んでいるのを見たのは、私の人生で初めてでした産業界や学界の多くの人々とコミュニケーションをとった結果、10の主要な研究方向が浮かび上がってきたことに気づきました。現在最も注目されている 2 つの方向は、幻覚 (出力幻覚) とコンテキスト学習です。

私にとって最も興味深いのは、以下に示す 3 番目の方向 (マルチモーダル マルチモーダル データ モード)、5 番目の方向 (新しいアーキテクチャ)、および 6 番目の方向 (GPU 代替ソリューションの開発) です。

LLM 研究の未解決の課題トップ 10

  1. 産出量の削減と評価(架空の情報)

  2. コンテキストの長さとコンテキスト構築の最適化

  3. 他のデータフォームを統合する

  4. 言語モデルの速度と費用対効果を向上させる

  5. 新しいモデル アーキテクチャを設計する

  6. 代替GPUソリューションを開発する

  7. エージェント(人工知能)の可用性を向上させる

  8. 人間の好みから学ぶ能力の向上

  9. チャットインターフェースの効率を改善する

  10. 英語以外の言語の言語モデルを構築する

6b9980ff1161bc85f7bd190160c63de5.png

1.幻覚を軽減し、評価する

出力環境についてはよく議論されているトピックなので、ここでは簡単に説明します。幻覚は、AI モデルが何かをでっち上げるときに発生します。多くのクリエイティブなユースケースでは、イリュージョンは機能の一種です。ただし、ほとんどのアプリケーションでは、幻覚はエラーです。最近、Dropbox、Langchain、Elastics、Anthropic の専門家と LLM に関するシンポジウムに参加しましたが、彼らの見解では、LLM を実際の運用環境に適用する際に企業が克服する必要がある最初の障害はファントム出力であると考えられています。

モデルの錯覚的な出力を削減し、錯覚的な出力を評価するためのメトリクスを開発することは、急成長している研究テーマであり、現在多くのスタートアップ企業がこの問題に焦点を当てています。また、キューワード、CoT、自己一貫性により多くのコンテキストを追加したり、モデルの応答が簡潔かつ明確であることを特に要求したりするなど、錯覚的な出力の可能性を減らすためのテクニックもあります。

以下は、幻覚出力に関する一連の論文と参考資料です。

  • 自然言語生成における幻覚に関する調査(Ji et al., 2022)

  • どのように言語モデルの幻覚が雪だるま式に増加するか(Zhang et al., 2023)

  • 推論、幻覚、対話性に関する ChatGPT のマルチタスク、多言語、マルチモーダル評価 (Bang et al.、2023)

  • 対照学習は会話中の幻覚を軽減する(Sun et al., 2022)

  • 自己一貫性は言語モデルにおける思考連鎖の推論を改善する(Wang et al., 2022)

  • SelfCheckGPT: 生成大規模言語モデルのためのゼロリソース ブラック ボックス幻覚検出(Manakul et al., 2023)

  • NVIDIA の NeMo-Guardrails による事実確認と幻覚の簡単な例

2. コンテキストの長さとコンテキストの構築を最適化する

ほとんどの質問にはコンテキストが必要です。たとえば、ChatGPT に「どのベトナム料理レストランが一番いいですか?」と尋ねると、必要なコンテキストは「このレストランは正確にどこに限定されていますか?」になります。なぜなら、ベトナムで最高のベトナム料理レストランは、米国で最高のベトナム料理レストランと同じだからです。 . レストラン、問題の範囲は異なります。

以下のクールな論文「SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA (Zhang & Choi, 2021)」によると、情報検索の質問に対する回答のかなりの部分が文脈的なものであり、たとえば、自然な質問の回答の約 10% は文脈に応じたものです。 NQ-Open データセット 16.5%。

(NQ-Open:https://ai.google.com/research/NaturalQuestions)

実際に企業が遭遇するケースでは、この割合はさらに高くなるのではないかと個人的には考えています。たとえば、企業がカスタマー サポート用のチャットボットを構築しているとします。このチャットボットが製品に関する顧客の質問に答えるために必要なコンテキストは、顧客の履歴や製品に関する情報である可能性があります。言語モデルは、提供されたコンテキストから「学習」するため、このプロセスはコンテキスト学習とも呼ばれます。

a4a7bd51bb7cd82d88406941d1099df4.pngカスタマーサポートのお問い合わせに必要なコンテキスト

コンテキストの長さは RAG (検索拡張生成) にとって非常に重要であり、RAG は大規模言語モデル業界のアプリケーション シナリオの主要なモードとなっています。具体的には、検索拡張の生成は主に 2 つの段階に分かれています。

フェーズ 1: チャンク化 (インデックス作成とも呼ばれます) チャンク化 (インデックス作成とも呼ばれます)

LLM によって使用されるすべてのドキュメントを収集し、これらのドキュメントをより大きなモデルにフィードしてエンベディングを生成できるチャンクに分割し、これらのエンベディングをベクトル データベースに保存します。

ステージ 2: クエリ

ユーザーが「私の保険は医薬品 X をカバーしますか?」などのクエリを送信すると、大きな言語モデルはこのクエリを QUERY_EMBEDDING と呼ばれる埋め込みに変換します。ベクトル データベースは、埋め込みが QUERY_EMBEDDING に最も似ているブロックを取得します。

c608dde5ca71f7424130face8fc40005.png

コンテキストの長さが長いほど、より多くのチャンクをコンテキストに詰め込むことができます。モデルが取得する情報が多ければ多いほど、その出力と応答の品質は高くなります。

常にではない。モデルが使用できるコンテキストの量と、モデルがコンテキストをどれだけ効率的に使用できるかは、2 つの異なる問題です。モデルのコンテキストの長さを増やすと同時に、コンテキストの効率も向上させるよう取り組んでいます。これを「即時エンジニアリング」または「即時建設」と呼ぶ人もいます。たとえば、最近の論文では、モデルがインデックスの中間の情報だけでなく、先頭と末尾をどのようによりよく理解できるかについて説明しています - Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023)。

3. 他のデータ モードを組み込む (マルチモーダル)

私の意見では、マルチモダリティは非常に強力ですが、過小評価されている面もあります。マルチモダリティの適用理由は次のとおりです。

まず、多くの特定のアプリケーション シナリオでは、特にヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテイメントなどのデータ モダリティが混在する業界で、マルチモーダル データが必要です。例えば:

  • 医療検査では、多くの場合、テキスト (医師の診断書、患者のアンケートなど) や画像 (CT、X 線、MRI スキャンなど) が必要になります。

  • 通常、製品のメタデータには、写真、ビデオ、説明、さらには表形式のデータ (製造日、重量、色など) が含まれています。これは、需要の観点から、ユーザーのコメントや製品の写真に基づいて不足している製品情報を自動的に埋める必要がある場合があるためです。ユーザーが形状や色などの視覚情報を使用して製品を検索できるようにしたい場合があります。

次に、マルチモダリティによりモデルのパフォーマンスが大幅に向上すると期待されています。テキストと画像の両方を理解するモデルは、テキストのみを理解するモデルよりもパフォーマンスが優れているはずではないでしょうか? テキストベースのモデルは非常に多くのテキストを必要とするため、テキストベースのモデルをトレーニングするためのインターネット データがすぐに不足してしまうのではないかと心配しています。テキストが使い果たされたら、他のデータ パターンを利用する必要があります。

a88ec9fad5cb187b67a15480e758f6d4.png

私が特に興奮している使用例の 1 つは、マルチモーダル テクノロジーにより、視覚障害者がインターネットと現実世界の両方を移動できるようにするというものです。

以下は、マルチモダリティに関連する一連の論文と参考資料です。

  • [CLIP] 自然言語監視からの転送可能なビジュアル モデルの学習(OpenAI、2021)

  • Flamingo: 少数ショット学習のための視覚言語モデル (DeepMind、2022)

  • BLIP-2: 凍結画像エンコーダーと大規模言語モデルを使用した言語画像事前トレーニングのブートストラップ (Salesforce、2023)

  • KOSMOS-1: 必要なのは言語だけではありません: 認識と言語モデルの調整(Microsoft、2023)

  • PaLM-E: 具現化されたマルチモーダル言語モデル (Google、2023)

  • LLaVA: ビジュアル命令チューニング(Liu et al., 2023)

  • NeVA: NeMo ビジョンおよび言語アシスタント (NVIDIA、2023)

4.  LLM をより速く、より安くする

GPT-3.5 が 2022 年 11 月末に初めてリリースされたとき、多くの人が実稼働環境での使用の遅延とコストについて懸念を表明しました。しかし、それ以来、レイテンシー/コスト分析は急速に変化しました。半年も経たないうちに、コミュニティは GPT-3.5 に非常に近いパフォーマンスを示しながら、GPT-3.5 のメモリ フットプリントの約 2% しか必要としないモデルを作成する方法を発見しました。

ここで重要なのは、十分に優れたものを作成すれば、人々はそれを迅速かつコスト効率よく作成する方法を見つけるだろうということです。

dae52c87635af6c4833b4b77966ba36a.png

以下は、Guanco の論文で報告されている、ChatGPT GPT-3.5 および GPT-4 のパフォーマンスと比較した Guanaco 7B のパフォーマンス データです。注意してください: 全体として、以下のパフォーマンス比較は完璧とは程遠く、LLM を評価するのは非常に困難です。

Guanaco 7B と ChatGPT GPT-3.5 および GPT-4 のパフォーマンスの比較:

c6b9dbd34a74c8cafea0d18fde4e60f7.png

4 年前、書籍『機械学習システムの設計』の「モデル圧縮」セクションとなるメモを書き始めたとき、モデルの最適化/圧縮に関する 4 つの主要なテクニックについて書きました。

  • 量子化: これまでで最も汎用性の高いモデル最適化方法。量子化では、より少ないビットを使用してパラメータを表すことによりモデルのサイズが削減されます。たとえば、32 ビットを使用する代わりに、16 ビット、さらには 4 ビットを使用して浮動小数点数を表すことができます。

  • 知識の蒸留: 大規模なモデルまたはモデルのコレクションを模倣するために小さなモデルをトレーニングする方法。

  • 低ランク因数分解: ここでの重要なアイデアは、高次元テンソルを低次元テンソルに置き換えてパラメータの数を減らすことです。たとえば、3x3 テンソルを 3x1 と 1x3 テンソルの積に分解すると、9 つのパラメーターの代わりに 6 つのパラメーターのみが必要になります。

  • 剪定

    上記の 4 つのテクニックはすべて、今日でも関連性があり、人気があります。アルパカはトレーニングに知識の蒸留を使用します。QLoRA は、低ランク因数分解と量子化を組み合わせて使用​​します

5. 新しいモデル アーキテクチャを設計する

2012 年の AlexNet 以来、私たちは LSTM、seq2seq などを含む多くのアーキテクチャの盛衰を見てきました。これらと比べると『トランスフォーマー』のインパクトは凄まじい。Transformer は 2017 年から存在していますが、このアーキテクチャがいつまで普及し続けるかは未解決の問題です。

Transformer を超える新しいアーキテクチャを開発するのは簡単ではありません。Transformer は過去 6 年間に多くの最適化が行われており、この新しいアーキテクチャは、人々が現在関心を持っているハードウェア上で、現在関心を持っている規模で実行する必要があります。

注: Transformer は当初、TPU で高速に動作するように Google によって設計され、後に GPU 用に最適化されました。

2021 年、Chris Ré の研究室の S4 は広く注目を集めました。詳細については、「構造化状態空間を使用した長いシーケンスの効率的なモデリング」(Gu et al.、2021) を参照してください。Chris Ré の研究室は現在も新しいアーキテクチャの開発を精力的に行っており、その 1 つが Monarch Mixer (Fu、2023) で、最近スタートアップの Together と協力して開発されました。

彼らの主なアイデアは、既存の Transformer アーキテクチャの場合、注目の複雑さはシーケンス長の 2 次であるのに対し、MLP の複雑さはモデル次元の 2 次であるということです。二次二次の複雑さを持つアーキテクチャはより効率的になります。

06edb8801c6bc9731826eccd7afb30ea.pngモナークミキサー

6. 代替GPUの開発

2012 年の AlexNet 以来、GPU はディープラーニングの主要なハードウェアとなってきました。実際、AlexNet の人気の一般に認められている理由の 1 つは、これが GPU を使用してニューラル ネットワークをトレーニングすることに成功した最初の論文であることです。GPU が登場する前は、AlexNet の規模でモデルをトレーニングしたい場合は、Google が AlexNet の数か月前にリリースしたような CPU を数千個使用する必要がありました。博士課程の学生や研究者にとって、数千個の CPU よりも数個の GPU のほうがアクセスしやすいため、ディープ ラーニング研究のブームが巻き起こりました。

過去 10 年間にわたり、大企業も新興企業も含め、多くの企業が人工知能用の新しいハードウェアを開発しようと試みてきました。最も注目すべき試みには、Google の TPU、Graphcore の IPU (IPU はどうなっているの?)、Cerebras などがあります。SambaNova は、新しい AI チップの開発のために 10 億ドル以上を調達しましたが、生成 AI プラットフォームに軸足を移したようです。

しばらくの間、量子コンピューティングには大きな期待が寄せられ、主要なプレーヤーには以下が含まれていました。

  • IBM QPU

  • Google の量子コンピュータは、量子エラー削減において大きなマイルストーンを達成したと、今年初めに Nature 誌に報告されました。その量子仮想マシンは、Google Colab を通じて公的にアクセスできます。

  • MIT 量子工学センター、マックス プランク量子光学研究所、シカゴ量子交換センター、オークリッジ国立研究所などの研究機関。

もう 1 つの同様に興味深い方向性はフォトニック チップです。この分野の知識はほとんどないので、間違っていたらご指摘ください。既存のチップはデータの送信に電力を使用するため、大量のエネルギーを消費し、遅延が発生します。一方、フォトニックチップは光子を使用してデータを送信し、光の速度を利用してより高速かつ効率的な計算を行います。この分野では、Lightmatter (2 億 7,000 万ドル)、Ayar Labs (2 億 2,000 万ドル)、Lightelligence (2 億ドル以上)、Luminous Computing (1 億 1,500 万ドル) など、さまざまなスタートアップが数億ドルを調達しています。

以下は、論文「光子行列乗算が光子加速器とその先を照らす」(Zhou、Nature 2022)から抜粋した、光子行列計算の 3 つの主要な方法の進捗タイムラインです。3 つの異なる方法とは、平面光変換 (PLC)、マッハツェンダー干渉計 (MZI)、および波長分割多重 (WDM) です。

19184c11fe8ec5801c32d74bb7bfdb97.png

7. エージェントの可用性を向上させる

エージェントとは、インターネットの閲覧、電子メールの送信、予約などのアクション (ユーザーに代わってさまざまなタスクを完了できるエージェントとして理解できるため、エージェントと呼ばれます) を実行できる大きな言語モデルを指します。これはおそらく、この論文の他の研究方向と比較して最も新しい方向の 1 つです。エージェントの目新しさと大きな可能性により、人々はエージェントに熱狂しています。Auto-GPT は現在、GitHub 上の星の数で 25 番目に人気のあるリポジトリです。GPT-Engineering も人気のあるリポジトリです。

この方向への興奮にもかかわらず、大規模な言語モデルがアクションを実行できるほど信頼性があり、十分なパフォーマンスを発揮するかどうかについては疑問が残ります。しかし、有名なスタンフォードの実験のように、エージェントが社会調査に使用されるという応用シナリオが登場しました。この実験では、生成的なエージェントの小さなクラスターが新たな社会的行動を生み出すことが示されました。たとえば、ユーザーが指定したアイデアから始まり、エージェントの欲求バレンタインデー パーティーを開催するために、エージェントは次の 2 日間のパーティーへの招待状を自動的に広め、新しい友達を作り、お互いをパーティーに招待します... (Generative Agents: Interactive Simulacra of Human Behavior、Park et al.、 2023年)、

おそらくこの分野で最も注目すべきスタートアップは Adept でしょう。同社は Transformer の元共著者 2 名と OpenAI の元副社長 1 名によって設立され、これまでに 5 億ドル近くを調達しています。昨年、彼らはエージェントがインターネットを参照する方法と、Salesforce に新しいアカウントを追加する方法を示しました。

8. 反復RLHF

RLHF (ヒューマン フィードバックからの強化学習) は優れていますが、少し注意が必要です。LLM をトレーニングするためのより良い方法を人々が見つけたとしても驚くべきことではありません。ただし、RLHF には次のような未解決の問題がまだ多くあります。

①人間の好みを数学的に表現するにはどうすればよいでしょうか?

現在、人間の好みは比較によって決定されます。人間のアノテーターは、応答 A が応答 B よりも優れているかどうかを判断します。ただし、応答 A が応答 B よりもどの程度優れているかは考慮されていません。

②人間の好みとは何でしょうか?

Anthropic は、出力に基づいて、有益、誠実、無害の 3 つの領域でモデルの品質を測定しました。「憲法上の AI: AI フィードバックからの無害性 (Bai et al., 2022)」を参照してください。

DeepMind は、ほとんどの人が満足する応答を生成しようとします。多様な好みを持つ人間の間で一致を見出すための言語モデルの微調整 (Bakker et al., 2022) を参照してください。

さらに、私たちが望むのは、自分の立場を主張できる AI でしょうか、それとも物議を醸す可能性のあるトピックを避ける従来の AI でしょうか?

③「人間」の好みは誰の好みですか? 文化、宗教、政治的傾向などの違いは考慮されるべきですか? すべての潜在的なユーザーを十分に表すトレーニング データを取得するには、多くの課題があります。

たとえば、OpenAI の InstructGPT データの場合、65 歳以上のアノテーターは存在しません。ラベラーは主にフィリピン人とバングラデシュ人です。InstructGPT: 人間のフィードバックによる指示に従う言語モデルのトレーニング (Ouyang et al., 2022) を参照してください。

a0449e5194da6db23609a0d58e4f0e32.jpegInstructGPT アノテーターの国籍統計

コミュニティ主導の取り組みは、その意図としては賞賛に値しますが、偏ったデータが生じる可能性があります。たとえば、OpenAssistant データセットの場合、回答者 222 人中 201 人 (90.5%) が男性であると自認しています。Jeremy Howard は Twitter に素晴らしいスレッドを持っています:

2ef89bfc3ecb7aef8a546cab39c1c128.png

9. チャットインターフェースの効率を改善する

ChatGPT 以来、チャットがさまざまなタスクに適したインターフェイスであるかどうかについて議論が行われてきました。

詳細については、以下を参照してください。

  • 自然言語は怠惰なユーザー インターフェイスです (Austin Z. Henley、2023)

  • なぜチャットボットは未来ではないのか(アメリア・ワッテンバーガー、2023)

  • 会話で答える必要がある質問の種類は何ですか? AskRedditの質問のケーススタディ(Huang et al., 2023)

  • AI チャット インターフェイスは、ドキュメントを読むための主要なユーザー インターフェイスになる可能性があります (Tom Johnson、2023)

  • 最小限のチャットによる LLM との対話 (ユージン ヤン、2023)

ただし、これは新しい話題ではありません。Dan Grover が 2014 年に書いたように、多くの国、特にアジアでは、チャットは約 10 年間スーパー アプリケーションのインターフェイスとして使用されてきました。

8d7c913d7300ed5ed7c38373c6f549b6.png

2016 年、多くのアプリは終わり、未来はチャットボットだと考えられていたとき、議論は再び白熱しました。

  • インターフェースとしてのチャットについて(Alistair Croll、2016)

  • チャットボットのトレンドは大きな誤解ですか?(Will Knight、2016)

  • ボットがアプリを置き換えることはありません。より良いアプリがアプリに取って代わる (Dan Grover、2016)

私は個人的に次の理由からチャット インターフェイスが気に入っています。

①チャットインターフェースは、コンピュータやインターネットに触れたことがない人でも、誰でもすぐに使いこなせる(普遍性のある)インターフェースです。2010 年代初頭、私がケニアの低所得地域でボランティア活動をしていたとき、そこにいる誰もが携帯電話やテキスト メッセージで銀行取引を行うことに慣れていることに衝撃を受けました。そのコミュニティではコンピューターを持っている人は誰もいませんでした。

② チャットインターフェイスへのアクセスが簡単です。手が他のことでふさがっている場合は、テキストの代わりに音声を使用してください。

③ チャットは非常に強力なインターフェースでもあります。チャットにあらゆるリクエストを送信すると、返信が必ずしも完璧ではない場合でも返信されます。

ただし、作成者は、チャット インターフェイスはいくつかの点で引き続き改善できると考えています。

①一度に複数のメッセージをやり取りできる

現在、基本的には交換ごとに 1 ラウンドのメッセージのみを想定しています。しかし、それは私が友達とテキストメッセージをやり取りする方法ではありません。さまざまなデータ (画像、場所、リンクなど) を挿入する必要があるため、前のメッセージで何かを見逃した可能性があるか、すべてを 1 つの大きなメッセージにまとめたくないため、考えを完成させるために複数のメッセージが必要になることがよくあります。段落。

②マルチモーダル入力

マルチモーダル アプリケーションの分野では、ほとんどの労力はより良いモデルの構築に費やされ、より良いインターフェイスの構築にはあまり費やされません。Nvidia の NeVA チャットボットを例に考えてみましょう。私はユーザーエクスペリエンスの専門家ではありませんが、ここには改善の余地があるかもしれないと考えています。

PS: ここで NeVA チームについて言及して申し訳ありませんが、それでも、あなたの作品は依然としてかなりクールです!

021cf4008efae41aca96de56efad9e29.png

③生成AIをワークフローに統合

Linus Lee 氏は、「チャットを超えた生成 AI インターフェイス」というシェアでこれについて非常に詳しく説明しています。たとえば、作成中のグラフの特定の列について質問したい場合、その列を指して質問できるはずです。

④メッセージの編集・削除

ユーザー入力を編集または削除すると、チャットボットとの会話の流れはどのように変わりますか?

10. 英語以外の言語用の LLM を作成する

現在の英語を主言語とする LLM は、パフォーマンス、レイテンシー、速度の点で他の多くの言語とうまく拡張できないことがわかっています。見る:

  • 英語を超えた ChatGPT: 多言語学習における大規模言語モデルの包括的な評価に向けて (Lai et al., 2023)

  • すべての言語は平等に作成(トークン化)されているわけではありません(Yennie Jun、2023)
    13acde380c9aaab9994d2ac2cc939e02.png

私はベトナム人を訓練する試み (Symato コミュニティの試みなど) しか知りませんが、この記事を初期に読んだ何人かは、次の理由から、この方向性を含めるべきではないと思うと言いました。

これは研究上の質問というよりは、ロジスティクス上の質問です。私たちはすでにその方法を知っていますが、必要なのは誰かが資金と労力を投入することだけです。ただし、これは完全に正しいわけではありません。ほとんどの言語は低リソース言語とみなされており、多くの言語では、たとえば英語や中国語に比べて高品質のデータがはるかに少ないため、大規模な言語モデルをトレーニングするには別の手法が必要になる可能性があります。以下も参照してください。

    • 低リソース言語: 過去の研究と将来の課題のレビュー (Magueresse et al.、2020)

    • JW300: 低リソース言語のための広範な対訳コーパス (Agić et al., 2019)

もっと悲観的な人は、将来、多くの言語が消滅し、インターネットは英語と中国語という 2 つの言語で構成される 2 つの世界になると信じています。この考え方の傾向は新しいものではありません - エスペラント語を覚えている人はいますか?

機械翻訳やチャットボットなどの人工知能ツールが言語学習に与える影響は依然として不明です。人々が新しい言語をより早く学習できるようになるのでしょうか、それとも新しい言語を学習する必要がまったくなくなるのでしょうか。

結論は

この記事で何か見逃していることがあればお知らせください。追加の観点については、包括的な論文「大規模言語モデルの課題と応用」(Kaddour et al., 2023) を参照してください。

上記の質問は他の質問よりも難しいです。たとえば、上記の質問 10 の英語以外の言語での LLM のセットアップは、十分な時間とリソースがあれば比較的簡単だと思います。

上記の最初の問題は、幻覚出力を減らすことですが、幻覚は LLM が確率的なことをしているだけであるため、これは非常に困難です。

第 4 に、LLM の高速化と低コスト化は完全には解決できません。この分野では大きな進歩があり、将来的にはさらに進歩するでしょうが、この方向の改善は今後も続くでしょう。

項目 5 と 6 の新しいアーキテクチャと新しいハードウェアは非常に困難ですが、時間の経過とともに避けられません。アーキテクチャとハードウェアの間には共生関係があるため、新しいアーキテクチャは共通のハードウェア向けに最適化する必要があり、ハードウェアは共通のアーキテクチャをサポートする必要があるため、これらは同じ会社によって行われる可能性が高くなります。

技術的な知識だけでは解決できない問題もあります。たとえば、質問 8 の人間の好みから学習する方法の改善は、技術的な問題というよりは政策の問題である可能性があります。問題 9 はチャット インターフェイスの効率を向上させることであり、これはユーザー エクスペリエンスの問題と言えます。これらの問題に協力してくれる、技術者以外の背景を持つより多くの人々が必要です。

最も興味のある研究の方向性は何ですか? これらの問題に対する最も有望な解決策は何だと思いますか? ぜひご意見をお聞かせください。

9f7f0c0a09989b59e2cb4716ac4315bf.jpeg

ソーシャルチャネル

おすすめ

転載: blog.csdn.net/shadowcz007/article/details/132439797