大規模言語モデルのトレーニングに関連するコレクション 30 データセット

前回「ChatGPTデータセットの謎」という記事を掲載しましたが、モデルの観点から6つのカテゴリ(Wikipedia、書籍、ジャーナル、Redditリンク、Co​​mmon Crawl、その他)別に分析・整理しました。 2018 年から 2022 年初頭までのデータ GPT-1 から Gopher の最新の大規模言語モデルに関連するすべてのトレーニング データ セット ドメイン、トークン番号などの詳細

現在も、これら 6 つの主要なカテゴリをコンテキストとして使用し、パブリック データセットの観点から切り込み、OpenDataLab の棚に置かれ、大規模言語の事前トレーニングに使用できるデータ リソースを整理します。モデル、命令の微調整、およびさまざまなカテゴリに対応するその他のカテゴリにより、部品データの準備時間を節約し、啓発をもたらすことを期待しています。

大規模な言語モデル データセットの分類:

カテゴリリファレンス

分類参照:「ChatGPT Dataset Mystery」とネットワーク照合

1.ウィキペディアクラス

No.1

機械によって言い換えられた盗作を特定する

●出版社: ヴッパータール大学(ドイツ)・メンデル大学ブルノ校

●発売日:2021年

● 概要:
このデータセットは、機械解釈されたテキストを検出するためのモデルをトレーニングおよび評価するために使用されます。トレーニング セットには、8,024 件の Wikipedia (英語) 記事 (オリジナル 4,012 件、SpinBot API を使用して言い換えた 4,012 件) から抽出された 200,767 セグメント (オリジナル 98,282 件、言い換え 102,485 件) が含まれています。テスト セットは 3 つのサブセットに分割されています。1 つは arXiv 研究論文のプレプリント、1 つは論文、もう 1 つは Wikipedia の記事です。さらに、さまざまなマルキーネの言い換え手法が使用されます。

● ダウンロードアドレス:
https://opendatalab.org.cn/Identifying_Machine-Paraphrased_etc

No.2

ニューラルパラフレーズ検出のベンチマーク

●出版社: ヴッパータール大学、ドイツ
● 発売日: 2021年

● はじめに:
これは、オリジナルのコンテンツと機械生成されたコンテンツを区別するためのニューラル パラフレーズ検出のベンチマークです。トレーニング: 4,012 の (英語) Wikipedia 記事から抽出された 1,474,230 の整列された段落 (98,282 の元の段落、3 つのモデルと 5 つのハイパーパラメーター構成で言い換えられた 1,375,948 の段落、それぞれ 98,282)。

● ダウンロードアドレス:
https://opendatalab.org.cn/Benchmark_for_Neural_Paraphrase_etc

No.3

ナットキャット

●発売日:2021年

● はじめに:
Wikipedia、Reddit、Stack Exchange の 3 つのオンライン ソースからの一般的なテキスト分類データセット (NatCat)。これらのデータセットは、コミュニティ内の自然現象に基づいて手動で精選されたドキュメントとカテゴリのペアで構成されています。

●ダウンロードアドレス: https:
//opendatalab.org.cn/NatCat

No.4

クォレフ

● 出版社: アレン人工知能研究所・ワシントン大学

● 発売時期:2019年

● はじめに:
Quoref は、読解システムの共参照推論能力をテストするための QA データセットです。Wikipedia の 4.7,000 個のパッセージに 24,000 個の質問が含まれるこのスパン選択ベンチマークでは、質問に答えるためにパッセージ内の適切なスパンを選択する前に、システムはハード相互参照を解決する必要があります。

●ダウンロードアドレス: https:
//opendatalab.com/Quoref

No.5

QuaC (コンテキスト内の質問応答)

●発行者:アレン人工知能研究所・ワシントン大学・スタンフォード大学・マサチューセッツ大学アマースト校

● 発売時期:2018年

● はじめに:
Contextual Question Answering は、クラウドソーシングされた約 14,000 の質問応答会話と合計 98,000 の質問応答ペアで構成される大規模なデータセットです。データ例には、2 人のクラウドワーカー間の対話型会話が含まれます。(1) 隠された Wikipedia テキストについてできる限り学ぶために一連の自由形式の質問をする学生、(2) 短い抜粋を提供して質問に答える学生. 先生(スパニング)は本文から来ています。

● ダウンロードリンク:
https://opendatalab.org.cn/QuAC

No.6

雑学QA

● 出版社: ワシントン大学アレン人工知能研究所

● 発売時期:2017年

● はじめに:
TriviaQA は、Wikipedia と Web からの 662,000 個のドキュメント内の 950,000 個の質問と回答のペアで構成される、現実的なテキストベースの質問応答データセットです。このデータセットは、スタンフォード質問応答データセット (SQuAD) などの標準的な QA ベンチマーク データセットよりも困難です。これは、質問に対する回答がスパン予測によって直接得られない可能性があり、コンテキストが非常に長いためです。TriviaQA データセットは、人間が検証した QA サブセットと機械が生成した QA サブセットで構成されます。

● ダウンロードリンク:
https://opendatalab.com/TriviaQA

No.7

WikiQA (ウィキペディアのオープンドメイン質問応答)

● 発売元: Microsoft Research

● 発売時期:2015年

● はじめに:
WikiQA コーパスは、オープンドメインの質問応答の研究のために収集され、注釈が付けられた、公開されている質問と文のペアのセットです。一般ユーザーの実際の情報ニーズを反映するために、Bing クエリ ログが問題のソースとして使用されます。各質問は、答えがある可能性のある Wikipedia ページにリンクしています。Wikipedia ページの概要セクションには、トピックに関する基本的な情報が提供され、多くの場合最も重要な情報が提供されるため、このセクションの文は回答候補として使用されます。コーパスには 3,047 の質問と 29,258 の文が含まれており、そのうち 1,473 の文は対応する質問に対する回答文としてラベル付けされています。

● ダウンロードアドレス: https:
//opendatalab.com/WikiQA

2. 書籍

No.8

ザ・パイル

● 発売元: EleutherAI

● 発売時期:2020年

● はじめに:
The Pile は、825 GiB の多様なオープンソース言語モデリング データセットであり、一緒に組み立てられた 22 個の小規模な高品質データセットで構成されています。

● ダウンロードリンク:
https://opendatalab.com/The_Pile

No.9

ブックコーパス

● 出版社: トロント大学 MIT

● 発売時期:2015年

● はじめに:
BookCorpus は、未発表の著者による無料のフィクション本の大規模なコレクションであり、16 の異なるサブジャンル (ロマンス、歴史、冒険など) にわたる 11,038 冊の本 (約 7,400 万の文と 1 グラムの単語) が含まれています。

● ダウンロードアドレス: https:
//opendatalab.org.cn/BookCorpus

No.10

EXEQ-300k

● 出版社: 北京大学・ペンシルベニア州立大学・中山大学

● 発売時期:2020年

● はじめに:
EXEQ-300k データセットには、Math Stack Exchange からの対応する数学タイトルを持つ 290,479 の詳細な質問が含まれています。このデータセットを使用すると、詳細な数学の問題から簡潔な数学のキャプションを生成できます。

●ダウンロードアドレス: https:
//opendatalab.org.cn/EXEQ-300k

3. 定期刊行物

No.11

Pubmed

●発行者:メリーランド大学

● 発売時期:2008年

● はじめに:
Pubmed データセットには、PubMed データベースからの 19717 件の糖尿病関連の科学出版物が含まれており、3 つのカテゴリのいずれかに分類されています。引用ネットワークは 44338 のリンクで構成されています。データセット内の各出版物は、500 個の一意の単語で構成される辞書からの TF/IDF 重み付け単語ベクトルによって記述されます。

● ダウンロードリンク:
https://opendatalab.org.cn/Pubmed

No.12

PubMed 論文読み取りデータセット

● 出版社: イリノイ大学アーバナシャンペーン校 · Didi Lab · Rensselaer Polytechnic Institute · ノースカロライナ大学チャペルヒル校 · ワシントン大学

● 発売時期:2019年

● はじめに:
このデータセットは、PubMed からの 14,857 個の実体、133 個の関係、およびトークン化されたテキストに対応する実体を収集します。これには、875,698 のトレーニング ペア、109,462 の開発ペア、および 109,462 のテスト ペアが含まれています。

● ダウンロードリンク:
https://opendatalab.org.cn/PubMed_Paper_Reading_Dataset

No.13

PubMed RCT (PubMed 200k RCT)

●発行者:Adobe Research MIT

● 発売時期:2017年

● はじめに:
PubMed 200k RCT は、PubMed に基づいた逐次文分類用の新しいデータセットです。このデータセットは、ランダム化比較試験の約 200,000 件の要約、合計 230 万文で構成されています。各要約の各文には、要約内での役割に応じて、背景、目的、方法、結果、または結論のカテゴリのいずれかがラベル付けされています。このデータセットを公開する目的は 2 つあります。まず、連続した短いテキストの分類 (つまり、シーケンス内に出現する短いテキストの分類) のほとんどのデータセットは小さいため、著者らは、新しい大規模なデータセットをリリースすることで、より正確なアルゴリズムの開発に役立つことを期待しています。次に、応用的な観点から見ると、研究者は文献を効率的に閲覧するためのより優れたツールを必要としています。要約内の各文を自動的に分類すると、特に医学など要約が長くなる可能性がある分野で、研究者が要約をより効率的に読むのに役立ちます。

● ダウンロードアドレス: https:
//opendatalab.org.cn/PubMed_RCT

No.14

メッドホップ

●発行者:ユニバーシティ・カレッジ・ロンドン・ブルームズベリーAI

● 発売時期:2018年

● はじめに:
WikiHop と同じ形式の MedHop データセットは、PubMed の研究論文の要約に基づいており、クエリは薬物ペア間の相互作用に関するものです。正しい答えは、薬物とタンパク質の一連の反応からの情報を組み合わせることによって導き出される必要があります。

●ダウンロードアドレス: https:
//opendatalab.org.cn/MedHop

No.15

ArxivPapers

● 発行者: Facebook · ユニバーシティ カレッジ ロンドン · DeepMind

● 発売時期:2020年

● はじめに:
ArxivPapers データセットは、2007 年から 2020 年の間に arXiv.org で公開された機械学習に関連する 104,000 を超えるラベルのない論文のコレクションです。このデータセットには、論文がタイトル、要約、セクション、段落、参考文献に分かれた構造化された形式で約 94,000 件の論文 (LaTeX ソース コードが利用可能) が含まれています。さらに、データセットには、LaTeX 論文から抽出された 277,000 を超えるテーブルが含まれています。論文ライセンスにより、データセットはメタデータとしてリリースされ、オープンソース パイプラインを使用して論文を取得および変換できます。

● ダウンロードリンク:
https://opendatalab.org.cn/ArxivPapers

No.16

unarXive

● 出版社: カールスルーエ工科大学

● 発売時期:2020年

● プロファイル:
出版物の全文、注釈付きの本文引用、メタデータへのリンクを含む学術データセットのコレクション。unarXive データセットには、1991 年から 2020/07 までの arXiv 上のすべての LaTeX ソースからの 100 万件のプレーンテキスト論文、6,300 万件の引用コンテキスト、3,900 万件の参照文字列、1,600 万件の接続された引用 Web データが含まれているため、PDF ファイルから生成されたデータよりも高品質です。さらに、すべての引用論文は全文で利用できるため、あらゆるサイズの引用コンテキストを抽出できます。データセットの一般的な用途は、引用の推奨、引用コンテキスト分析、参照文字列のコード解析などで、データセットを生成する方法が公開されています。

● ダウンロードアドレス: https:
//opendatalab.org.cn/unarXive

No.17

arXiv 要約データセット

●発行者:ジョージタウン大学・Adobe Research

● 発売時期:2018年

● はじめに:
研究論文の抽象化手法を評価するためのデータセットです。

● ダウンロードアドレス: https:
//opendatalab.org.cn/arXiv_Summarization_Dataset

No.18

スカキャップ

●発行者:ペンシルベニア州立大学

●発売日:2021年

● はじめに:
SciCap は、2010 年に出版され、2020 年に出版されたコンピューター サイエンスの arXiv 論文に基づく大規模なグラフィックス字幕データセットです。SCICAP には、290,000 を超える論文から抽出された 1 つの主要なグラフ タイプであるグラフ グラフに焦点を当てた 416,000 を超えるグラフが含まれています。

●ダウンロードアドレス: https:
//opendatalab.org.cn/SCICAP

No.19

MathMLben (数式セマンティクスベンチマーク)

● 出版社: コンスタンツ大学国立標準技術研究所

● 発売時期:2017年

● はじめに:
MathMLben は、数学形式変換 (LaTeX ↔ MathML ↔ CAS) の評価ツールのベンチマークです。これには、NTCIR 11/12 arXiv および Wikipedia のタスク/データセット、NIST 数学関数デジタル ライブラリ (DLMF)、および AnnoMathTeX (https://annomathtex.wmflabs.org) を使用した数式と識別子名の推奨システムが含まれています。

●ダウンロードアドレス: https:
//opendatalab.org.cn/MathMLben

4. Redditコンテンツアグリゲーションコミュニティクラス

No.20

OpenWebText

●出版社:ワシントン大学・Facebook AI Research

● 発売時期:2019年

● はじめに:
OpenWebText は、WebText コーパスを再構築したオープン ソースです。このテキストは、Reddit で少なくとも 3 つの賛成票 (38 GB) で共有された URL から抽出された Web コンテンツです。

●ダウンロードアドレス: https:
//opendatalab.org.cn/OpenWebText

5. Common Crawl Web クローラー オープン データベース

No.21

C4 (巨大でクリーンなクロールされたコーパス)

● 出版社: Google Research

● 発売時期:2020年

● はじめに:
C4 は、Common Crawl の Web クローラー コーパスの巨大でクリーンなバージョンです。これは Common Crawl データセット: https://commoncrawl.org に基づいています。これは、T5 text-to-text Transformer モデルをトレーニングするために使用されます。データセットは、allennlp から前処理された形式でダウンロードできます。

●ダウンロードリンク: https:
//opendatalab.com/C4

No.22

一般的なクロール

● 出版社: フランス国立情報学オートメーション研究所・ソルボンヌ大学

● 発売時期:2019年

● はじめに:
Common Crawl Corpus には、12 年間の Web クローリング中に収集されたペタバイト単位のデータが含まれています。コーパスには、生の Web ページ データ、メタデータ抽出、およびテキスト抽出が含まれています。共通のクロール データは、アマゾン ウェブ サービスの公開データセットと世界中の複数の学術クラウドに保存されています。

● ダウンロードアドレス: https:
//opendatalab.org.cn/Common_Crawl

6. その他のカテゴリ

コードデータセット

No.23

コードサーチネット

● パブリッシャー: Microsoft Research GitHub

● 発売時期:2020年

● はじめに:
CodeSearchNet Corpus は、GitHub 上のオープン ソース プロジェクトから Go、Java、JavaScript、PHP、Python、Ruby で書かれた関連ドキュメントを含む大規模な関数データセットです。CodeSearchNet コーパスには以下が含まれます: * 合計 600 万のメソッド * そのうち 200 万には関連ドキュメント (docstrings、JavaDoc など) が含まれます * データが最初に見つかった場所を示すメタデータ (リポジトリや行番号など)。

●ダウンロードアドレス: https:
//opendatalab.org.cn/CodeSearchNet

No.24

スタQC

●発行者:オハイオ州立大学・ワシントン大学・富士通総研

● 発売時期:2018年

● はじめに:
StaQC (スタック オーバーフロー質問コード ペア) は、Bi-View 階層ニューラル ネットワークを使用してスタック オーバーフローから自動的にマイニングされた、約 148,000 の Python および 120,000 の SQL ドメイン質問コード ペアを含むこれまでで最大のデータセットです。

●ダウンロードアドレス: https:
//opendatalab.org.cn/StaQC

No.25

コードエクスプ

● 出版社: 北杭大学・Microsoft Research・トロント大学

●発売日:2022年

● はじめに:
私たちは、Python コードとドキュメント文字列のコーパスである CodeExp を提供します。これには、(1) 230 万の生のコードとドキュメント文字列のペアの大規模なパーティション、(2) 学習済みフィルターを使用した生のコーパスからの中程度の 158,000 ペアのパーティション、および ( 3) 厳密に人間による 13,000 ペアでアノテーションを分割します。当社のデータ収集プロセスでは、人間から学習したアノテーション モデルを活用して、元の GitHub データセットから高品質のアノテーション付きコードとドキュメント文字列のペアを自動的にフィルタリングします。

●ダウンロードアドレス: https:
//opendatalab.org.cn/CodeExp

No.26

ETH Py150 オープン

●出版社:インド科学研究所・Google AI Research

● 発売時期:2020年

● はじめに:
GitHub からの 740 万の Python ファイルの大規模な重複排除コーパス。

●ダウンロードアドレス
https://opendatalab.org.cn/ETH_Py150_Open

フォーラムのデータセット

No.27

フェデレーテッド スタック オーバーフロー

● 出版社: Google Research

●発売日:2022年

● 概要:
データはすべての質問と回答のテキストで構成されます。本文は文に解析され、文が 100 未満のユーザーはデータから除外されます。最小限の前処理は次のように行われます: 小文字のテキスト、HTML 記号のエスケープ、非 ASCII 記号の削除、句読点を別のトークンとして分離 (アポストロフィとハイフンを除く)、冗長な空白の削除、URL を特別なトークンで置き換えます。さらに、次のメタデータが提供されます: 作成日 質問タイトル 質問ラベル 質問スコア タイプ (「質問」または「回答」)。

● ダウンロードアドレス: https:
//opendatalab.org.cn/Federated_Stack_Overflow

No.28

QUASAR (検索と読み取りによる質問回答)

●発行者:カーネギーメロン大学

● 発売時期:2017年

● はじめに:
Question Answering on Search and Reading (QUASAR) は、QUASAR-S と QUASAR-T から構成される大規模データセットです。これらの各データセットは、自然言語クエリ、大量のテキスト コーパスを理解し、コーパスから質問に対する回答を抽出するように設計されたシステムの評価に重点を置くように設計されています。具体的には、QUASAR-S は、エンティティ ラベルを使用して人気のある Web サイト Stack Overflow から収集された 37,012 個の穴埋め問題で構成されています。QUASAR-T データセットには、さまざまなインターネット リソースから収集された 43,012 件のオープンドメインの質問が含まれています。このデータセット内の各質問の候補ドキュメントは、ClueWeb09 データセット上に構築された Apache Lucene ベースの検索エンジンから取得されます。

●ダウンロードリンク
https://opendatalab.org.cn/QUASAR

No.29

GIF 返信データセット

●発行者:カーネギーメロン大学

● 発売時期:2017年

● はじめに:
公開された GIF 返信データセットには、Twitter 上の 1,562,701 件の実際のテキストと GIF の会話が含まれています。これらの会話では、115,586 個のユニークな GIF が使用されました。このデータセット内の一部の GIF では、OCR で抽出されたテキスト、注釈付きラベル、オブジェクト名などのメタデータも利用できます。

● ダウンロードアドレス: https:
//opendatalab.org.cn/GIF_Reply_Dataset

ビデオキャプションデータセット

No.30

TVC (テレビ番組のキャプション)

●発行者:ノースカロライナ大学チャペルヒル校

● 発売時期:2020年

● はじめに:
TV Show Caption は、261,490 のキャプション説明と 108,965 の短いビデオ クリップを含む大規模なマルチモーダル キャプション データセットです。TVC は、他のデータセットの字幕は視覚的なコンテンツのみを説明するのに対し、その字幕はダイアログ/字幕も説明できるため、独特です。

●ダウンロードアドレス: https:
//opendatalab.org.cn/TVC

上記は今回の共有です。スペースが限られているため、その他のデータセットについては、OpenDataLab の公式 Web サイトをご覧ください: https://opendatalab.org.cn/

おすすめ

転載: blog.csdn.net/OpenDataLab/article/details/129418443