AI モデル: データの収集とクリーニング

AI モデルをトレーニングするには、十分なデータを収集して準備する必要があります。システムがあらゆる状況下で正確に動作することを保証するために、データはさまざまな状況やシナリオをカバーする必要があります。データの元のソースは本物である必要があり、システムの予想される使用法をカバーしている必要があります。データは特定のニーズに応じてサンプリングして処理する必要があり、公開データセット、サードパーティのデータプロバイダー、内部データセット、シミュレートされたデータセットなど、さまざまなソースから取得できます。多くの大規模なモデルのトレーニングに使用されるデータは、大きく 2 つのカテゴリに分類できます。1 つ目は、Web ページ、書籍、オンライン メッセージ、オンライン会話などの一般的なテキスト データです。このタイプのデータは、取得が容易でサイズが大きいため、広く使用されています。データ スケール. モデルの利用、一般的なテキスト データは、大規模モデルの汎化能力を向上させるのが容易です。2 番目は、特殊なテキスト データ、主にいくつかの多言語カテゴリ データ、科学関連の出力データとコードです。このタイプのデータは、大規模モデルの特殊化、タスク機能。データを準備するときは、正確さ、完全性、一貫性などのデータの品質にも注意を払う必要があります。さらに、プライバシーとセキュリティの問題も考慮する必要があり、データにユーザーの個人情報などの機密情報が含まれている場合は、データのセキュリティとプライバシーを確​​保するために感度を下げる措置を講じる必要があります。データの収集と準備は AI システムのテストにおける重要な手順の 1 つであり、テストの正確さと包括性を確保するには適切な計画と準備が必要です。

データ収集が完了したら、通常、データをクリーニングする必要があります。ここでのクリーニングとは、データ内の一部の「悪い」コンテンツの処理を指します。ここでの悪いとは、データのノイズ、冗長性、有害性、その他のコンテンツを指します。データセットの品質と一貫性を確保します。
ここに画像の説明を挿入します

収集されたデータ セットが一般的なテキスト データであるか特殊なテキスト データであるかに関係なく、LLM モデルのトレーニングに使用する前に、一連のデータ クリーニングを受ける必要があります。品質フィルタリングによるデータセットの品質の向上 従来のアプローチは、低品質のデータを除去する一連のフィルタリングルールを設計し、それによってデータ品質を向上させることでした。一般的に使用されるルールには、言語ベースのフィルタリング ルール、メトリックベースのフィルタリング ルール、キーワードベースのフィルタリング ルールなどがあります。

おすすめ

転載: blog.csdn.net/chenlei_525/article/details/132601028