トレーニング セット、検証セット、テスト セットを設定するにはどうすればよいですか?

深層学習では、トレーニング セット、検証セット、テスト セットの比率は通常、特定のデータ セットとタスクに従って決定され、固定された標準比率はありません
ただし、一般的な推奨比率をいくつか示します。

1. トレーニング セット (トレーニング セット):通常、データ セット全体の大部分 (通常は60% ~ 80%)を占めます。トレーニング セットが大きいほど、モデルがデータの特性とパターンをより適切に学習し、モデルのパフォーマンスを向上させることができます。

2. 検証セット:検証セットは、モデルのハイパーパラメーターを調整し、過学習を避けるためにモデル選択を実行するために使用されます。通常、トレーニング セット内のデータの一部を検証セットとして分割することが推奨され、その比率は通常10% ~ 20%です。

3. テスト セット (テスト セット):テスト セットは、モデルのパフォーマンスと汎化能力を最終的に評価するために使用され、実際のアプリケーションにおけるモデルの予測能力の尺度になります。通常は、独立したデータの一部をテスト セットとして保持することが推奨され、その比率は10% ~ 20%にすることができます。

上記の比率は参考値であり、実際の状況はデータ セットのサイズ、タスクの複雑さ、データの分散などの要因によって異なる場合があることに注意してください。また、より小さなデータセットの場合、モデルのパフォーマンスをより適切に評価するために相互検証などの手法が必要になる場合があります。

データ セットを分割するときは、3 種類のデータ セットが互いに独立しており、データの多様性と真の分布を表現できることを確認してください。同時に、同じ分割方法と割合を維持することで、結果の比較が容易になり、評価結果の正確性を確保できます。

おすすめ

転載: blog.csdn.net/qq_43308156/article/details/130750550