2023 年に人気のある大規模言語モデル (LLM) の概要

Large Model (LLM) は、人間の言語を理解して生成するように設計された人工知能モデルです。

大量のテキスト データをトレーニングすることで、テキストの要約、翻訳、感情分析などの幅広いタスクを実行できます。これらのモデルは多くの場合、トランスフォーマーなどの深層学習アーキテクチャに基づいており、さまざまな自然言語処理タスクで優れた機能を実証できます。

国内外の大型模型の分野では目覚ましい成果が上げられており、さまざまな国や地域の企業、機関、学術機関が積極的に資源を投入し、大型模型技術の開発促進に取り組んでいます。

例えば海外では、OpenAIがGPT-3.5をベースにした大規模言語モデルであるChatGPTを発表し、その優れた性能から、ChatGPTとそれを支える大規模言語モデルは人工知能の分野で急速に話題となり、注目を集めています。多くの科学研究者や開発者の注目を集めていますので、注目して参加してください。

中国では、2023 年 8 月 31 日の時点で、多くの大規模なモデル企業や機関が、自社のサービスがオンラインで社会全体に公開されたことを正式に発表しました。現在、Baidu、Zhipu、Baichuan、Byte、SenseTime、中国科学院 (Zidong Taichu) を含む 8 つの企業と機関の大型モデルが登録リストの最初のバッチの 1 つであり、正式に発売され、公衆にサービスを提供します。

誰もが大型モデル分野の発展をより直感的に理解できるように、国内外のトップ大型モデルをまとめて参考にして使用してください。

海外大型モデルまとめ

オープンAI

チャットGPT

ChatGPT は、GPT-3 言語モデルを利用したオープンソースのチャットボットです。ユーザーと自然言語の会話でコミュニケーションできます。ChatGPT は幅広いトピックについてトレーニングされており、質問への回答、情報の提供、クリエイティブなコンテンツの生成に至るまでのタスクに役立ちます。フレンドリーで役に立つように設計されており、さまざまな会話スタイルや状況に適応できます。ChatGPT を使用すると、最新のニュース、時事問題、趣味、個人的な興味など、さまざまなトピックについて興味深く有益な会話をすることができます。

論文: https://www.miner.cn/pub/5ed0e04291e011915d9e43ee

GPT-4

2023 年 3 月、OpenAI は、画像とテキストの入力を受け入れ、正しいテキスト応答を出力できるマルチモーダルの事前トレーニング済み大規模モデル GPT-4 をリリースしました。実験では、GPT-4 がさまざまな専門的テストや学術ベンチマークにおいて人間レベルで機能することが示されています。たとえば、司法試験模擬試験では受験者の上位 10% のスコアで合格しましたが、それに比べて GPT-3.5 は下位 10% のスコアでした。

論文: https://www.miner.cn/pub/641130e378d68457a4a2986f

2

グーグル

ラMDA

LaMDA は、対話用に特別に設計された一連の Transformer ベースのモデルです。これらのモデルには最大 1,370 億のパラメータがあり、1 兆 5,600 億の公開会話データを使用してトレーニングされています。LaMDA を使用すると、さまざまなトピックについて自由に流れる会話が可能になります。従来のチャットボットとは異なり、事前定義されたパスに制限されず、会話の方向に基づいて適応的に適応できます。

論文: https://www.miner.cn/pub/61ea249b5244ab9dcbabc7ac

パルム

PaLM は、複雑な学習や推論などのさまざまなタスクを処理できる 5,400 億個のパラメーターを備えた言語モデルです。言語テストと推論テストでは、最先端の言語モデルや人間を上回ります。PaLM システムは、少数ショット学習手法を使用します。この手法は、少量のデータから一般化し、人間が新しい問題を解決するために知識を学習および適用する方法をほぼシミュレートできます。

論文: https://www.miner.cn/pub/624d050e5aee126c0f4a7920

mT5

Multilingual T5 (mT5) は、130 億のパラメーターで構成されるテキストからテキストへの Transformer モデルです。mC4 コーパスでトレーニングされており、アムハラ語、バスク語、コサ語、ズールー語など 101 の言語をカバーしています。mT5 は、多くの言語を越えた自然言語処理タスクで最先端のパフォーマンス レベルを達成できます。

論文: https://www.miner.cn/pub/5f92ba5191e011edb3573ba5

3

ディープマインド

ホリネズミ

DeepMind の言語モデル Gopher は、科学や人文科学などの専門的なトピックに関する質問に答えるなどのタスクでは、既存の大規模な言語モデルよりも正確であり、論理的推論や数学などの他のタスクでは同等です。Gopher には調整するパラメータが 2,800 億あり、パラメータが 1,750 億しかない OpenAI の GPT-3 よりも大きくなります。

論文: https://www.miner.cn/pub/61b2c0246750f848a14300ff

チンチラ

Chinchilla は Gopher と同じ計算量を使用しますが、パラメーターは 700 億個のみで、データは 4 倍です。多くの下流評価タスクにおいて、Gopher、GPT-3、Jurassic-1、Megatron-Turing NLG などのモデルよりも優れたパフォーマンスを発揮します。微調整と推論に使用するコンピューティング リソースが大幅に削減され、ダウンストリーム アプリケーションでの使用が大幅に容易になります。

論文: https://www.miner.cn/pub/63a413f690e50fcafd6d190a

スズメ

Sparrow は DeepMind によって開発されたチャットボットで、安全でない不適切な応答のリスクを軽減しながら、ユーザーの質問に正しく答えるように設計されています。Sparrow の動機は、誤った、偏った、または潜在的に有害な出力を生成する言語モデルの問題を解決することです。Sparrow は人間の判断を使用してトレーニングされるため、ベースラインの事前トレーニング済み言語モデルよりも有用かつ正確で、害が少なくなります。

論文: https://www.miner.cn/pub/63365e7c90e50fcafd1a2bdd

4

人間的

クロード

Claude は、高度な自然言語処理を利用した AI ベースの会話アシスタントです。役に立つ、無害な、誠実なヘルパーになることを目指しています。これは、Constitutional AI と呼ばれるテクノロジーを使用して訓練されています。トレーニング プロセス中、モデルの自己監視やその他の AI 安全方法を通じて、前述の行動特性を示すことが制限され、報酬が与えられます。

論文: https://www.miner.cn/pub/63a1750c90e50fcafd1f38d7

5

メタ

OPT-IML

OPT-IML は、1,750 億個のパラメーターを備えた Meta の OPT モデルに基づいた事前トレーニング済みの言語モデルです。OPT-IML は、質問応答、テキストの要約、翻訳などの自然言語タスクのパフォーマンスを向上させるために微調整されており、約 2,000 の自然言語タスクを使用してトレーニングされています。OpenAI の GPT-3 よりもトレーニング中の効率が高く、CO₂ 排出量が少なくなります。

論文: https://www.miner.cn/pub/63a910a290e50fcafd2a84fd

ブレンダーボット-3

BlenderBot 3 は、人々と対話し、会話能力を向上させるためにフィードバックを受け取ることができる会話エージェントです。BlenderBot 3 は、Meta AI の公開されている OPT-175B 言語モデルに基づいて構築されており、そのサイズは前世代の BlenderBot 2 の約 58 倍です。このモデルには、性格、共感、知識などの会話スキルが組み込まれており、長期記憶を活用したりインターネットを検索したりすることで、有意義な会話を実現します。

論文: https://www.miner.cn/pub/62f07ec290e50fcafde5ac5e
6

AI21ラボ

ジュラ紀

Jurassic-1 は、AI21 Labs によって立ち上げられた開発者プラットフォームで、アプリケーションとサービスを構築するための最先端の言語モデルを提供します。これは、これまでにリリースされた中で最大かつ最も複雑な汎用言語モデルである Jumbo バージョンを含む 2 つのモデルを提供します。これらのモデルは柔軟性があり、人間のようなテキストを生成し、質問応答やテキスト分類などの複雑なタスクを解決できます。

論文: https://www.miner.cn/pub/62620f1c5aee126c0f686cf5

7

エヌビディア

メガトロン・チューリング NLG

Megatron-Turing Natural Language Generation (MT-NLG) モデルは、5,300 億のパラメーターを備えた Transformer ベースの言語モデルであり、この種のモデルとしては最大かつ最も強力です。ゼロショット、ワンショット、数ショット設定で以前の最先端のモデルを上回り、予測、常識推論、読解、自然言語推論、語義の曖昧さ回避などの自然言語タスクを完了する際に比類のない精度を示します。 。

論文: https://www.miner.cn/pub/61f753205aee126c0f9c2149

国内大型モデルまとめ

百度

アーニー 3.0 タイタン

Baidu と Pengcheng Labs が共同リリースしたこのツールは、260B のパラメータを持ち、自然言語の理解と生成に優れています。大量の非構造化データでトレーニングされ、機械読解、テキスト分類、意味的類似性など 60 を超える NLP タスクで最高の結果を達成しました。さらに、Titan は 30 件の少数ショットおよびゼロショットのベンチマークで良好なパフォーマンスを示し、少量のラベル付きデータを使用してさまざまな下流タスク全体を汎用化できる能力を示しています。

論文: https://www.miner.cn/pub/61c53a815244ab9dcbcaf3b5

アーニーボット

「アーニーボット」プロジェクトの内部テストは3月に完了した。Ernie Bot は、OpenAI の ChatGPT に似た人工知能言語モデルで、言語理解、言語生成、テキストから画像への生成が可能です。このテクノロジーは、生成人工知能を開発する世界的な競争の一部です。

論文: https://www.miner.cn/pub/60e441e0dfae54001623c105

ウィズダムスペクトルAI

GLM

自己回帰穴埋めに基づく一般的な事前トレーニング フレームワーク統合フレームワークで双方向および一方向の注意メカニズムを同時に学習することで、モデルは事前トレーニング段階でコンテキスト表現と自己回帰生成を同時に学習します。下流タスクの微調整フェーズでは、さまざまな種類の下流タスクがクローゼ形式で統合され、それによってすべての自然言語処理タスクに共通の事前トレーニング モデルが実現されます。

論文: https://www.miner.cn/pub/622819cdd18a2b26c7ab496a

GLM-130B

GLM-130B は、1,300 億パラメータを備えたオープン ソースのオープン バイリンガル (中国語と英語) 双方向高密度モデルであり、モデル アーキテクチャには一般言語モデル (GLM) が採用されています。1 台の A100 (40G * 8) または V100 (32G * 8) サーバー上で数千億のパラメーターを持つモデルの推論をサポートするように設計されています。INT4 量子化スキームの下では、GLM-130B はモデルのパフォーマンスをほとんど損なうことなく、RTX 3090 (24G * 4) または GTX 1080 Ti (11G * 8) サーバー上で効率的な推論を実行できます。

論文: https://www.miner.cn/pub/633e476890e50fcafde59595

チャットGLM-6B

ChatGLM-6B は、中国語と英語のバイリンガル質問応答をサポートし、中国語用に最適化されたオープンソースの会話言語モデルです。このモデルは一般言語モデル (GLM) アーキテクチャに基づいており、62 億のパラメーターがあります。モデル量子化テクノロジーと組み合わせることで、ユーザーはそれを民生用グラフィック カードにローカルに展開できます (INT4 量子化レベルでは最低 6GB のビデオ メモリが必要です)。ChatGLM-6B は ChatGLM と同じテクノロジーを使用しており、中国語の質疑応答および対話に最適化されています。約 1T の識別子を使用した中国語と英語のバイリンガル トレーニングを経て、教師付き微調整、フィードバック セルフサービス、ヒューマン フィードバック強化学習、その他のテクノロジーによって補完された、62 億パラメータの ChatGLM-6B (1,000 億モデルほどではないものの、推論コストが大幅に削減され、効率が向上し、すでに人間の好みと完全に一致する答えを生成できるようになりました。

ファーウェイ

PanGu-Alpha

ファーウェイは、PanGu-Alphaと呼ばれるOpenAIのGPT-3と同等の中国モデルを開発した。このモデルは、書籍、ニュース、ソーシャル メディア、Web ページを含む 1.1 TB の中国リソースに基づいており、GPT-3 より 2,500 万個多い 2,000 億個以上のパラメーターが含まれています。PanGu-Alpha は、テキストの要約、質問への回答、ダイアログの生成など、さまざまな言語タスクを効率的に実行できます。

論文: https://www.miner.cn/pub/6087f2ff91e011e25a316d31

アリ

M6

2021年6月、アリババと清華大学は新しい研究を発表し、パラメータスケール1000億の中国事前トレーニングモデルM6を提案した。これは当時中国最大のマルチモーダル事前トレーニングモデルだった。M6 のアプリケーションは、製品説明の生成、ビジュアルな質疑応答、質問応答、漢詩の生成など、幅広いタスクに適しています。実験結果では、M6 が一連の強力なベンチマークを上回るパフォーマンスを示しています。さらに、研究者らはテキストガイドによる画像生成タスクを特別に設計し、微調整された M6 が高解像度で詳細なディテールを備えた高品質の画像を作成できることを実証しました。

論文: https://www.miner.cn/pub/60c320b19e795e9243fd1672

同義前文

2023年4月、アリババは、マルチラウンド対話、コピーライティング作成、論理的推論、マルチモーダル理解、多言語サポートなどの機能を備えた非常に大規模な言語モデル「Tongyi Qianwen」をリリースした。

ほんの数日前、Alibaba は、Tongyi Qianwen 70 億パラメータ モデル Qwen-7B: Qwen-VL に基づく言語モデルを再度発表しました。これは、画像とテキストの入力をサポートし、マルチモーダル情報理解機能を備えています。基本的な画像とテキストの認識、説明、質疑応答、対話機能に加えて、視覚的な位置決めや画像内のテキストの理解などの新機能も備えています。

論文: https://www.miner.cn/pub/64e826d63fda6d7f06c3150c

シャンタン

日日新

SenseTimeは2023年4月、自然言語処理モデル「Consultation」、ヴィンセントグラフモデル「Miahua」、デジタルヒューマンビデオ生成プラットフォーム「Ruying」を含む大規模モデル「RiRixin」をローンチした。これも、Baidu Wenxinyiyan や Alibaba Tongyi Qianwen に続く国内大手メーカーによる ChatGPT 風の製品です。

最近、Shangtang 大型モデル チームは Vincentian 大型モデル RAPHAEL も提案しました。詳細は論文を参照してください。

論文: https://www.miner.cn/pub/647572e0d68f896efa7b79ab

上記のモデルに加えて、国内モデルには、Baichuan Intelligent Model、DouyinのSkylark大型モデル、中国科学院の「Zidong Taichu」モデル、上海人工知能研究所のScholar大型モデル、MiniMaxのABAB大型モデルなどがあります。

2023年は国内外で新型モデルの登場が続き、大型モデルの爆発的な成長が見られます。大規模なモデルが進化し最適化され続けるにつれて、自然言語処理、画像認識、音声認識などの分野でのパフォーマンスが向上し続け、人間のレベルを超えることが期待できます。

これにより、医療から金融、運輸から教育に至るまで、さまざまな業界での人工知能技術の広範な適用が促進され、大型モデルがスマートデバイスとサービスの中核となるでしょう。私たちの生活はよりインテリジェントに、便利に、そしてパーソナライズされたものになるでしょう。

もちろん、今後の大規模モデルの開発には、プライバシーやセキュリティなどのいくつかの課題や問題にも直面します。しかし、技術の進歩と用途の拡大により、これらの問題は徐々に解決され、克服されるでしょう。

結局のところ、時間が解決してくれるでしょう!

チャットペーパーの使い方は?

ChatPaperの利用方法は非常に簡単で、AMinerのホームページを開き、ページ上部または右下のナビゲーションバーからChatPaperのページに入ります。
ここに画像の説明を挿入します

ChatPaper ページでは、単一のドキュメントに基づいて会話するか、データベース全体 (個人ドキュメント データベース) に基づいて会話するかを選択でき、ローカル PDF をアップロードするか、AMiner でドキュメントを直接検索するかを選択できます。

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/132624006