データマイニング、清華大学の最近の導入を見て、保存自分自身を検討する予定で、ここで学ぶために物事を終え、私はそれを助けるためにいくつかの子供の靴のための鶏料理のこの種を願っています。
分類:
定義:トレーニングセットを考える:{(X1、Y1)を、...、(XN、YN)}は、xiが生成する任意の未知のオブジェクトは、そのクラスラベルyiの分類器(機能)にマッピングされています。
アイコン:
その古典アルゴリズム:
- ディシジョン・ツリー
- KNN
- 神経回路網
- SVM
注意:私たちは、最も正確な結果を得ることができない、100%の結果が滑らかに必要達成するための理想的な分類子になりたいです。
分類アルゴリズム交差検証:
プロセス:
- トレーニングデータセットを使用してモデルを生成します。
- テストセットモデルの評価(評価)を使用して、
- 評価結果は、モデルを生成するフィードバック。
- 評価結果は非常に満足のいくものである場合には、出力生成モデル。そうでなければ再生します。
混乱マトリックス(混同マトリックス):評価を行う方法については、我々は最初の名詞を理解する必要があります。
理解するための栗の場合:
我々は2つのカテゴリ、男性と女性ではyと性別、すなわち分類よ。私たちは、女性が負で、男性は正作ります。
人は男性のためのセックスを持っている場合は、その実際の値は正です。私たちはこれらの個人属性(属性は少し自分自身を設定することができるものです)を入力すると、モデルが負対応する偽陰性を得るために、成功を予測示し、正、それに対応する真の陽性フィギュアとなっている、男性が予測する女性を示しています。逆に、他の二つの格子に対応します。
もちろん、モデルの精度を使用することができる精度=(TP + TN)/(P + N)(試験結果データセット)モデルは、このために正しいです。
以下のROC曲線:
マップを初めて目!
私たちは性別を予測する場合は、heightプロパティは、直接予測単語を使用して:
横軸は高さを表し、2行は、男性/女性、閾値である中央線ああを表します。
パープル部TP、FPオーバーラップ場所。
さて、二つ目!言うことは何も無いです。。。。これは図囲まれた領域の最初の行に対応する1未満です。
私たちは、3番目の図を参照してください。
私たちは1メートルのしきい値を設定した場合、すべての予測は男の子です。TPは100%、FPは100%です。図3番目の右上隅(非常に小さい閾値)に対応します。
閾値が5メートルに設定されている場合、FP、TPは、左下隅(非常に大きなしきい値)に対応する、0です。
不同的阈值,对应着此坐标系中不同点的取值。
其中,链接两个对角的对角线为random guess,也就是来一个人,不管什么属性,随机猜,就是这个效果。
理论上,我们希望这条曲线越高越好。为了衡量这条线的好坏,定义AUC。为此线下面的面积,为测试模型好坏的一指标。越接近1,此模型越好。
本菜鸡还是初学者,有啥错误希望路过的大神指正。