1はじめに
1.1はじめに
まず、機械学習とは何かを簡単に紹介しましょう。単純な定義は[Mitchell、1997]で与えられています。Tのパフォーマンスを評価するためにPが使用されているとします。プログラムがTのタスクで経験Eを使用してパフォーマンスの改善を得た場合、プログラムについてTとPについて説明します。学んだE.
人間にとって、私たちが若いときに両親の言うことを聞くことによって学ぶことは学ぶことであり、機械学習の概念はほぼ同じです。
1.2基本的な用語
データの集合は「データセット」と呼ばれます。オブジェクトの性質を反映したものを「特徴」または「属性」といい、その値を「属性値」といい、伸びた空間を「属性空間」といいます。 space)、"sample space"または"input space"。この本の例はスイカです。スイカには「色」、「根」、「ノックサウンド」という3つの属性があると仮定します。これら3つの属性値を3つの座標軸として考えると、張チェンの3次元空間は上記の「属性空間」、この空間ではすべてのスイカに座標があるため、例を「特徴空間」と呼びます(たとえば、[色=緑、根=丸く、ノッキング=有声音])。「(特徴ベクトル)。
一般的,令D = { ,,,}来表示包含m个示例的数据集,每一个示例包含d个特征描述(前文例子中西瓜含有3个特征),则每个示例是维样本空间中的一个向量,,其中表示在第个特征值的取值。被称为样本的“维数”(dimensionality)。
在训练中使用的数据被成为“训练数据”(trainin data),每一个样本被称为“训练样本”(trainin sample),训练样本的集合被称为“训练集”(training set)。学习的目的就是通过学习找到隐藏在数据之下的真相亦或者规律。
本の例を引き続き使い、スイカデータの研究の目的は「予測」をすることで、目の前にあるメロンが美味しいのか知りたい。ただし、予測したい場合は、美味しいメロンの特性、つまり[色=緑、根=丸まっている、ノッキング=有声]などのトレーニングサンプルの「結果」を知る必要があります。 「美味しいメロン」、[色=緑、根=硬い、ノック=クリスピー]メロンは「美味しくないメロン」などです。ここでいう「美味しいメロン」は「ラベル」(ラベル)。マークされた情報の例は、「例」と呼ばれます。すべてのラベルのコレクションは、「ラベルスペース」または「出力スペース」とも呼ばれます。
予測値が離散値である場合、この種の学習は「分類」と呼ばれます。予測値が連続値である場合、この学習は「回帰」と呼ばれます。スイカを「クラスタリング」することもできます。また、分類、回帰、クラスタリング、およびセグメンテーションについては、後で説明します。モデルが学習された後、実行される検証フェーズは「テスト」と呼ばれます。
情報がラベル付けされているかどうかによると、学習が最初に呼び出され、2つのに分類される「教師あり学習」と他が呼び出され、「教師なし学習」。教師あり学習の代表は分類と回帰であり、教師なし学習の代表はクラスタリングです。