最初の章では、序論がたくさんの概念を投げかけ、仮想空間とサンプル空間が少し混乱しているのを見て、私はいくつかの情報をチェックして記録した後で初めてそれを知った。
1.基本的な概念
仮説空間:機械学習で可能な機能によって形成される空間を「仮説空間」と呼びます。(百度百科事典の概念)
私の理解は:本のスイカ問題など、特定の問題、考えられるすべての条件のセットには、スイカの3つの特性、色、根、ノックがあり、これらの3つの特性を使用してスイカを説明できます。既知の特徴の中には、色が2種類、根が3種類、ノックが3種類あり、配置や組み合わせにより18例ありますが、他のスイカはこれら18例に限定されない場合がありますので説明を探します。メロンの特徴は、根の音や色と同じくらい良いのかもしれませんが、根や色が何であれ、良いメロンかもしれませんし、良いメロンがないかもしれません。
バージョンスペース:概念学習における既知のデータセットと一致するすべての仮説のサブセットです。スペースはすべてのケースを考慮していると想定されていますが、一部は既知のデータセットと矛盾しています。たとえば、既知のデータセットには良いメロンの概念があるため、スペースのØはバージョンスペースに属していると想定されます。
第二に、スイカの問題
スイカの問題によると、スペースは次のようになっていると想定されています。
1色= *、ジェンティー= *、ノック= *
2色=緑-緑、根= **、ノック= *
3色=黒檀、ジェンティー= *、ノック= *
4色= *、ルート=丸く、ノック= *
5色= *、ジェンティー=硬い、ノック= *
6色= *、ジェンティー=少しカール、ノック= *
7色= *、ジェンティー= *、ノック=ミュート
8色= *、ジェンティー= *、ノック=クリア
9色= *、ジェンティー= *、ノック=鈍い
10色=緑-緑、根元台座=カール、ノック= *
11色=緑、根茎=硬い、ノック= *
12色=緑-緑、発根=わずかにカール、ノック= *
13色=黒、発根=丸く、ノック= *
14色=黒檀、ジェンティー=硬い、ノック= *
15色=エボニー、ジェンティー=少しカール、ノック= *
16色=緑-緑、発根= *、ノック=混濁
17色=緑-緑、発根= *、ノック=クリア
18色=緑-緑、ルート台座= *、ノック=くすみ
19色=黒檀、ジェンティー= *、ノック=めまい
20色=黒、ジェンティー= *、ノック=クリア
21色=黒檀、ジェンティー= *、ノック=鈍い
22色= *、根茎=丸く、ノッキング=濁った
23色= *、根茎=丸く、ノック=くっきり
24色= *、根=丸く、ノック=鈍い
25色= *、根茎=硬い、ノッキング=泥だらけ
26色= *、ジェンティー=強い、ノック=クリア
27色= *、ジェンティー=硬い、ノック=鈍い
28色= *、根茎=わずかにカール、ノッキング=濁った
29色= *、根茎=わずかにカール、ノッキング=ぱりっとした
30色= *、根茎=わずかにカール、ノック=鈍い
31色=緑、根茎=丸く、ノッキング=濁った
32色=緑、根茎=丸く、ノック=くっきり
33色=緑、根茎=丸く、ノック=鈍い
34色=緑、根茎=硬い、ノッキング=濁った
35色=緑、根茎=硬い、ノック=ぱりっとした
36色=緑-緑、根のある=硬い、ノック=鈍い
37色=緑-緑、根茎=わずかにカール、ノック音=濁った音
38色=緑-緑、根茎=少しカール、ノッキング=クリア
39色=緑、根茎=わずかにカール、ノック=鈍い
40色=黒、根茎=丸く、ノッキング=濁った
41色=黒、発根=丸く、ノック=くっきり
42色=黒、発根=丸く、ノック=鈍い
43色=黒檀、ジェンティー=硬い、ノック=めまい
44色=エボニー、ジェンティー=ストロング、ノック=クリア
45色=黒檀、ジェンティー=硬い、ノック=鈍い
46色=黒檀、ジェンティー=少しカール、ノック=めまい
47色=黒、発根=少しカール、ノッキング=ぱりっとした
48色=エボニー、ジェンティー=少しカール、ノック=鈍い
49Ø
上記の49ケースは「良いメロン」の仮想空間です
既知のデータセットによると:
数 | 色 | ゲンティ | ノック | 良いメロン |
1 | 新緑 | 丸める | 泥だらけ | はい |
2 | 黒檀 | 丸める | 泥だらけ | はい |
3 | 新緑 | 固い | ぱりっとした | いいえ |
4 | 黒檀 | ややカール | 鈍い | いいえ |
データセットの番号1の状況に応じて、サンプル空間の3、5、6、8、9、11〜15、17〜21、23〜30、32〜49を削除して、互いに矛盾させることができます。
データセットの番号2に従って、残りのサンプルスペースの2、10、16、31を削除できます。
データセットの番号3に従って、残りのサンプルスペースの1を削除できます。
データセットの番号4によると、削除するものはありません。
学習後のバージョン空間は
4色= *、ルート=丸く、ノック= *
7色= *、ジェンティー= *、ノック=ミュート
22色= *、根茎=丸く、ノッキング=濁った
それが本の図1.2の内容です。
3.ある程度の理解
仮説空間を削除すると、良いメロンを説明できる特性を見つけることになるため、データセットの番号1に従ってさらに削除されます。番号1のコンテンツが競合したい場合は削除されます。以下の「なぜデータセットの良いメロンがスペースから削除されたとしますか?「これは良いメロンを説明できる機能を探していると思います。仮説空間のデータセットの良いメロンはデータセットの1つの値しか説明できませんが、データセットのもう1つの値と同じです。値が競合するため、削除してください。
最後に、写真を入れます:
2次元空間(上記)の「長方形」仮説の場合、緑色のプラス記号は正のサンプルを表し、小さな赤い円は負のサンプルを表します。GBは最大の一般的な正の仮説の境界であり、SBは最大の特定の正の仮説の境界です。GBとSBで囲まれた領域の四角形はバージョン空間の仮説であり、つまり、GBとSBで囲まれた領域がバージョンスペース、つまり中央の緑の線で形成されるスペースです。