メロンを食べるチュートリアル ノート—Task01 (第 1 章と第 2 章)

タスク

ここに画像の説明を挿入

知識ポイント

機械学習は主に何のためにあるのでしょうか?
 コンピュータシステムにおいては、通常、「経験」は「データ」として存在するため、機械学習の研究の主な内容は、コンピュータ上でデータから「モデル」を生成するアルゴリズム、すなわち「学習アルゴリズム」です。経験的なデータを提供すると、これらのデータに基づいてモデルを生成できます。新しい状況に直面したとき、モデルは対応する判断を提供します。コンピューターサイエンスが「アルゴリズム」の研究である場合、同様に、機械学習は「学習アルゴリズム」の研究であると述べました。

基本用語
サンプル: 「サンプル」とも呼ばれ、イベントまたはオブジェクトの説明です。コンピューターは、実生活の物事をベクトルを通じてコン​​ピューターが理解できる形式に抽象化します。これは、あらゆる物事は複数の「特徴」(または「属性」) によって一意に記述することができ、ベクトルの各次元を使用して各特徴を記述することができるためです。 。(ベクトル内の要素は、ベクトルが列ベクトルであることを示すためにセミコロン「;」で区切られ、行ベクトルを表すためにカンマ「,」で区切られます) 例: スイカの 3 つの特徴: 色、
 根x = (緑色、カール、鮮明) サンプル
空間: サンプルの特徴ベクトルが配置されている空間がサンプル空間であり、通常は派手な大文字の X で表されます。
データセット: データセットは通常セットで表されます。セット D = {x1, x2, …, xm} が m 個のサンプルを含むデータセットを表すものとします。
モデル: 機械学習の一般的なプロセスは次のとおりです。まず、いくつかのサンプル (この時点で 100 個あると仮定します) を収集し、次にそれらをトレーニング サンプル (80) とテスト サンプル (20) に分割します。そのうちの 80 個のトレーニングの
セットサンプルは「トレーニング セット」と呼ばれ、20 個のテスト サンプルのセットは「テスト セット」と呼ばれ、特定の機械学習アルゴリズムを選択し、そのトレーニング セットで「学習」(または「トレーニング」)させます。次に、「モデル」(または「学習者」) を取得して出力し、最後にテスト セットを使用してモデルの効果をテストします。
マーキング
: 前述の機械学習の本質は、特定の側面におけるサンプルのパフォーマンスに潜在的な規則があるかどうかを学習することであり、情報のこの側面を「マーキング」と呼びます。たとえば、スイカが良いか悪いかを学習する場合、「良いメロン」と「悪いメロン」がサンプルのラベルになります。一般に、 i 番目
のサンプルのラベルの数学的表現は yi で、ラベルが配置される空間は「ラベル空間」または「出力空間」と呼ばれ、数学的表現は派手な大文字の Y です。マーク
通常、音符もサンプルの一部としてみなされるため、完全なサンプルは通常 (x, y) として表されます。
ラベルのさまざまな値の種類に応じて、機械学習のタスクは次の 2 つのカテゴリに分類できます。
 • ラベルの値が離散的である場合、このタイプのタスクは「分類」と呼ばれます。
 • フラグの値が連続である場合、そのタスクは「回帰」と呼ばれます。
ラベル情報が有用かどうかに応じて、機械学習タスクは次の 2 つのカテゴリに分類できます。 •ラベル情報がモデルのトレーニング段階で役立つ場合、このタイプのタスクは「教師あり学習」と呼ばれます (
 章
 の線形モデルなど)。 3;トレーニング段階でラベル付けされた情報が使用されない場合、そのようなタスクは「教師なし学習」と呼ばれます (第 9 章のクラスタリングなど)。
一般化: 機械学習の目標は、既知の内容に基づいて未知のものをできるだけ正確に判断することであるため、未知のものを判断する正確さがモデルの品質を測る鍵となります。これを「一般化」能力と呼びます
。 。
分布: ここでの「分布」とは、確率論における確率分布を指します。通常、サンプル空間は未知の「分布」D に従い、収集される各サンプルはこの分布から独立してサンプリングされていると想定されます。配布されました」。

モデルの評価と選択

誤り率: E =a/m、ここで、m はサンプル数、a は誤って分類されたサンプルの数です。
精度: 精度 = 1 - エラー率。
誤差: 学習者の実際の予測出力とサンプルの真の出力の差。
経験的誤差: トレーニング セットにおける学習者のエラー。「トレーニング エラー」とも呼ばれます。
一般化エラー: 新しいサンプルに対する学習者のエラー。
評価方法
モデルの評価方法はホールドアウト法、クロスバリデーション法、ブートストラップ法の3つです。ホールドアウト法は、操作が簡単なため最も一般的に使用されます。クロス検証法は、同じアルゴリズムの異なるパラメーター構成の効果を比較したり、異なるアルゴリズムの効果を比較するためによく使用されます。ブートストラップ法は、多くの場合、アンサンブル学習で基本分類器を生成するために使用されます。ホールドアウトとブートストラップの方法はシンプルで理解しやすいです。
脇に置く方法: データセット D を相互に排他的な 2 つのセットに直接分割します。実際、1 つのセットはトレーニング セット S で、もう 1 つはテスト セット T です。S でモデルをトレーニングした後、そのテスト誤差は一般化誤差の推定値として T を使用して評価されます。一般的に使用される比率: 2:3、4; 1
相互検証方法: まず、データセットを同様のサイズの相互に排他的な k 個のサブセットに分割し、そのサブセットをテスト セットとして選択し、残りの k-1 個のサブセットの和集合がトレーニング セット 、最終評価結果はトレーニング時間のテスト結果の平均です。
 極端な場合、K = サンプル数、つまり、Leave-one-out 法はサンプル分割法の影響を受けませんが、サンプル数が大きい場合、トレーニングのオーバーヘッドが大きすぎます。
メソッド: m 個のサンプルを含むデータセット D が与えられた場合、それをサンプリングしてデータセット D1 を生成します。D1 をトレーニング セットとして、D または D1 をトレーニング セットとして使用できます。
検証セット: パラメータを持つアルゴリズムは、一般に、候補パラメータ設定スキームから現在のデータセットに対して最適なパラメータ設定スキームを選択する必要があります。たとえば、サポート ベクター マシンのパラメータ C は、一般的に上記の相互検証手法を採用しますが、相互検証手法は操作がより複雑ですが、実際には、
まずホールドアウト手法によってデータ セットをトレーニング セットとテスト セットに分割し、次にホールドアウト手法を使用してデータ セットとテスト セットを分割するという方法がよりよく使用されます。トレーニング セットをトレーニング セットと新しいセットに分割します。
テスト セット、新しいテスト セットは検証セットと呼ばれ、検証セットのテスト結果に基づいてパラメータが調整されて最適なパラメータ構成スキームが選択され、最後に
検証セットがトレーニング セットに十分なデータがある場合、マージされない可能性があります) 、選択した最適なパラメーター構成を使用して、結合されたトレーニング セットで再トレーニングし、テスト セットを使用してトレーニングされたモデルのパフォーマンスを評価します。

パフォーマンス指標

一般的に使用されるのは、エラー率、精度、適合率、リコール、F1、ROC、および AUC です。
混同行列:
ここに画像の説明を挿入
適合率 P : 学習者が正例として予測したサンプルのうち、真の例である割合。
ここに画像の説明を挿入
再現率 R : すべての正例のうち、学習者が正例として予測する割合。
ここに画像の説明を挿入
適合率と再現率は相反する尺度のペアです。適合率が高いほど再現率は低くなり、再現率が高いほど適合率は低くなります。
適合率-再現率曲線 (PR 曲線) :
ここに画像の説明を挿入
曲線の下の面積が大きいほど、パフォーマンスが優れています。 バランス
ポイント: 適合率 == 再現率の値が高いほど、パフォーマンスが優れています。

F1 測定:
ここに画像の説明を挿入
複数の二値混同行列がある場合、マクロ精度 (マクロ P)、マクロ再現率 (マクロ R)、および対応するマクロ F1 (マクロ F1): マイクロ精度 (マイクロ P)、マイクロ再現率
ここに画像の説明を挿入
( micro-R)、および対応する micro-F1 (micro-F1):
ここに画像の説明を挿入
ここに画像の説明を挿入
ROC および AUC
ROC の正式名は「受信機動作特性」曲線で、学習者の予測結果に従ってサンプルを次の順序で並べ替えます。サンプルは 1 つずつ陽性例として予測され、そのたびに 2 つの重要な量の値が計算され、それぞれ横軸と縦軸にプロットされます。縦軸は真陽性率 (TPR)、そして横軸は偽陽性、症例率 FPR。
ここに画像の説明を挿入
AUC (Area Under ROC Curve) は、ROC 曲線下の各部分の面積を合計することで得られます。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/weixin_44195690/article/details/129005012