ChatGPT スピードラン マニュアル - GPT トレーニング データセットの紹介

GPT トレーニング データセットの概要

すべての人工知能アルゴリズムは、トレーニングと推論という 2 つのステップに分かれています。アルゴリズムの効果は、トレーニング データ自体の品質に大きく依存します。Openai社ChatGPTが使用する学習データについては、別途詳細を発表していません。しかし、ChatGPT がプリオーダー GPT アルゴリズムに基づいて開発されていることを考慮すると、GPT-3 の学習データセットを側面から分析することができます。

人工知能の分野で著名なアラン D. トンプソン博士は、大規模言語モデルの分野で現在一般的に使用されているデータセットを紹介する記事を発表しました。openaiの論文で公開されているトークンデータによると、GPT-3で使用されるトレーニングデータセットのサイズは753.4GBであると推測されています。具体的な分布は以下の通りです。

  • ウィキペディア: 11.4GB。ウィキペディアは、30 万人を超えるボランティアがコンテンツに貢献している、世界をリードする無料の多言語オンライン百科事典です。英語版は通常、662 万件の記事と 42 億語以上の単語を含むトレーニングに含まれています。そのうち、伝記が27.8%、地理が17.7%、文化芸術が15.8%、歴史が9.9%、生物医学が7.8%、スポーツが6.5%、ビジネスが4.8%、科学と工学が占めた。数学は 3.5% % を占めました。
  • グーテンベルクブック: 21GB。電子書籍発明者マイケル ハートによって作成されたプロジェクトであるグーテンベルク ブック コーパスは、世界初の無料電子書籍 Web サイトです。このサイトにはさまざまな言語の書籍が集められており、12言語で50冊以上、中国語で500冊以上ありますが、基本的には古書です。通常、トレーニングにはコーパス内の SPGC の選択されたバージョンが使用されます。オンラインサイトなので、日別の上位100冊のリストを直接見ることができます。たとえば、2023年3月10日付けではシェイクスピアの『ロミオとジュリエット』が1位となったが、トップ100に入った唯一の中国本は偶然にも88位の唐仙祖著『牡丹閣』だった。
  • Bibliotik Journey: 101GB。Bibはインターネット最大の電子書籍サイトで、P2Pで配信・ダウンロードを行っており、シード数は50万冊を超えています。2021 年に GPT-Neo 大規模モデルをトレーニングするために、EleutherAI Lab はこの電子書籍データセットを統合して選択しました。これは、EleutherAI Lab によって最終的に使用された Pile データセット内の全データの 12.07% を占めます。
  • Reddit リンク: 50GB。Reddit は人気のあるソーシャル メディア プラットフォームであり、WebText データセットは Reddit プラットフォームからの 3 つ以上のアウトバウンド リンクを持つすべての Web ページをクロールし、人気コンテンツの翼を表します。
  • 一般的なクロール: 570GB。これは 2011 年からクロールされているデータセットで、元の Web ページ、メタデータ、抽出されたテキストが AWS に保存されており、合計は 1PB を超え、毎月 20 TB のペースで増加し続けています。通常、トレーニングに使用されるのは Common Crawl の C4 部分のみです。データ分析の観点から見ると、Google の特許 Web サイトが 0.48% と高い割合を占めていることを除けば、その他のソース Web サイトの割合は比較的平均的であり、0.04% 未満にとどまっています。

openai 独自の言語別の公開トレーニング データ統計 ( https://github.com/openai/gpt-3/blob/master/dataset_statistics/langages_by_word_count.csv ) では、トレーニング データ セット内の英語の単語の割合は 92 という高さです。 %。その他、フランス語が1.81%、ドイツ語が1.47%、その他の言語が1%未満、中国語が0.1%となっています。しかし、ChatGPT のさまざまな言語での実際の Q&A 機能は、openai 自身の予想をはるかに超えています。人間の言語は、ある程度人間の理解を超えたコミュニケーションを行う可能性があります。

GPT-3の学習コーパスサイズが45TBにも及ぶというニュースもあります。2 つのデータ間のギャップが大きすぎます。選択前の上記のデータ ソースの合計サイズが 45TB である可能性があります。

これらのデータセットはインターネット全体をどの程度表現できるでしょうか? www.worldwidewebsize.com Web サイトは、Google や Bing などの検索エンジンで検索できるインターネット上の Web ページの総数を長年追跡しており、これまでにインデックス付けされた Web ページの総数は 58 億 5,000 万です。Web ページの HTML サイズに関する別の長期追跡調査があり、インターネット Web ページの平均サイズは現在 1.2MB です。インターネット全体のテキスト サイズは 7000 TB であると推定されています。あらゆる種類の HTML タグを削除し、80/20 ルールに従って同様のロングテール コンテンツを大まかに削除した後、インターネット全体のテキストのサイズは約 1000 TB になると勝手に信じることができます。ただし、この 1,000 TB のデータを直接使用して AI 対話をトレーニングすることは、最善の解決策ではない可能性があります。何年も前に、Microsoft Xiaoice は悪口の事故を「学習」しましたが、それは明らかな証拠です。

さらに、ChatGPT の思考連鎖能力は論理能力を意図的に行使する必要があるため、トレーニング データには GitHub からのコード データ セット、StackExchange プログラミングの質問と回答のデータ セットなどが含まれる場合もあります。

ChatGPT の現在のトレーニング データは基本的に英語のインターネット世界からのものであり、中国語のインターネット データについての理解が不足していることがわかります。これは中国のインターネット大手にとってもチャンスだ。しかし、実際、中国のインターネットには、この規模のオープンで標準化されたデータセットが不足しています。対応するフォームがない場合もあります。例: 中国には、主にアウトバウンドリンクや Q&A コメントに焦点を当てた reddit や hackernews などのソーシャル メディア プラットフォームがほとんどありません。既存の中国語コーパスのほとんどすべては、北京語言大学の BBC、清華大学の OpenSLR、北京大学の CCL、南京農業大学の NEPD、知源研究所の WuDaoCorpora などの主要な大学や科学研究機関から提供されています。復旦大学は人工知能対話ロボット「MOSS」を発表した際、特別な中国語データを一切使わずに英語インターネット世界の標準コーパスを使用したことを認めた。

科学研究機関がリアルタイムで更新されたデータセットを長期間維持することは困難であるため、この点は中国のインターネット企業自身の努力に依存します。たとえば、Baidu Encyclopedia、Zhihu Q&A が優先コンテンツを提供する、Jingdong、Dangdang などです。電子書籍の無料配布、HowNet の無料定期刊行物や雑誌の発行、WeChat モーメントでのアウトバウンドリンクの開設、Weibo のホット検索リストとコメントの統合など。一方で、監督レベルの検討も検討されている。中国証券監督管理委員会科学技術監督局の局長である姚謙氏は最近、「中国金融」第6号に署名記事「ChatGPT大規模モデルトレーニングデータの保管とガバナンス」を発表し、2023年にChatGPT大規模モデルトレーニングデータを差し押さえることを提案した。高品質データの「強気な情報」。高品質データの供給のためには、「自立性とオープン性を全体として考慮する必要がある。Wikipedia や国内のデータ処理者による使用のための Reddit。」

おすすめ

転載: blog.csdn.net/shiyunzhe2021/article/details/130176785