第 1 章 はじめに
1.1 はじめに
スイカの本では「モデル」はデータから学習した結果を指すために使用されます。
1.2 基本用語
- データセット
- 属性または特徴
- 属性値
- 属性によって広がる空間は、「属性空間」、「サンプル空間」、または「入力空間」と呼ばれます。
- データからモデルを学習するプロセスは「学習」または「トレーニング」と呼ばれ、学習アルゴリズムを実行することによって行われます。
- トレーニング プロセスで使用されるデータは「トレーニング データ」と呼ばれ、各サンプルは「トレーニング サンプル」と呼ばれ、トレーニング サンプルのセットは「トレーニング セット」と呼ばれます。
- 予測が離散値の場合、このタイプの学習タスクは「分類」タスクと呼ばれ、2 つのカテゴリのみが含まれる場合は「二値分類」タスクと呼ばれ、複数のカテゴリが含まれる場合は「多分類」タスクと呼ばれます。
- 連続値が予測される場合、このタイプの学習タスクは「回帰」と呼ばれます
- 学習されたモデルを使用して予測を行うプロセスは「テスト」と呼ばれ、予測されたサンプルは「テストサンプル」と呼ばれます。
- トレーニングセット内のサンプルをいくつかのグループに分割する「クラスタリング」。各グループは「クラスター」と呼ばれます。
- 学習データがラベル付けされているかどうかに応じて、学習タスクは「教師あり学習」(分類や回帰など)と「教師なし学習」(クラスタリングなど)に分類できます。
- 学習されたモデルを新しいサンプルに適用する能力は、「一般化」能力と呼ばれます。強力な一般化能力を持つモデルは、サンプル空間全体によく適しています。
1.3 仮説空間
- 帰納は、個別から一般への「一般化」、つまり特定の事実から一般法則を演繹するプロセスであり、
演繹は一般から個別への「専門化」、つまり基本的な事柄から特定の状況を演繹するプロセスです。原則
1.4 帰納的な好み
- 学習プロセス中の特定の種類の仮説に対する機械学習アルゴリズムの優先度。「帰納的優先度」または単に「優先度」と呼ばれます。