SQuAD データセットを使用したデモンストレーション
ここで、サンプルデモを使用して Faiss の機能を理解することができます。この例では、Stanford Question Answering Dataset (SQuAD) を使用します。SQuAD は、一般的に使用されている自然言語処理 (NLP) データセットです。このデータセットは、Wikipedia でユーザーが提起した質問に基づいています。各質問に対する答えは、読んだ文章に対応するテキストから得られ、合計 500 以上の記事のうちの 100,000 件です。複数の質問と回答のペア。
コード例に入る前に、SQuAD データセットをダウンロードしてください。
1. SQuAD データセットをダウンロードします (https://rajpurkar.github.io/SQuAD-explorer/)
この記事の例では SQuAD 1.1 を使用します。SQuAD 1.1 データセットはここからダウンロードできます。ダウンロードが完了したら、ダウンロードした JSON ファイル (train-v1.1.json) を common files ディレクトリに保存してください。
</