最終的に機械学習テクニックに到達し、各章を完了した状態に保ち、すぐに更新するようにしてください。。コーナーストーンは書き終わるまで書き続けなかったのですが、今思い返してみると何を書いていたのかわかりませんが、メモを見ると文章がめちゃくちゃで、ひっくり返ったような気がします。ゆっくりと改善してください。
この技術はかなり難しいと聞いたので、マスターのブログに投稿して祝福してください:
Red Stone: 非常によく表現されていると思います。!
1. 線形SVM
P1 1.1
このコースの後に 3 つの特徴変換に関する [テクニック] を紹介した後
1. 特徴変換の使用方法と特徴変換の複雑さを制御する方法: SVM (サポート ベクター マシン、かなり難しそうです) を使用します。
2 . 予測特徴と予測特徴を見つける方法それらを組み合わせてモデルのパフォーマンスを向上させる: AdaBoost (段階的強化方法)
3. 隠れた機能を見つけて学習してマシンのパフォーマンスを向上させる方法: Deep Learning (深層学習!!!)
P2 1.2
PLA では、実際に一連のデータを異なる分割にすることができます。上の 3 つの画像はすべて「正しい」です。すべての点が正しく分割されていることが保証されており、VC バウンドによれば Eout は同じですが、人間の脳によれば、右端の画像の分割の方が優れているはずです
。
なぜ?データには多少のノイズや測定誤差が含まれるため、実際の状況は必ずしも ooxx 上にあるわけではなく、灰色の領域に分布している可能性がありますが、これも合理的です。左図の分割線の×に近い場合、多少の振動があると○の範囲まで走りやすくなり、エラーが発生します。したがって、エラー許容率 (エラーを許容する能力) (伝説的な堅牢性?) を向上させるには、「より強力な」ラインを呼び出す必要があります。明らかに、最も強力なラインは、すべてが正しいことを保証することです。最も近い点から最も遠い線。
もちろん、「太い」に変化しても「太い」にならないこともあり、糸が太ければ太いほど強度が高くなります。学術的には「脂肪」をマージンといいます。以下はマージンを最大化する w を表す公式です: 「最も強い線は、すべてが正しいことが保証されている場合に最も近い点から最も遠い線です。」
P3 1.3
では distance(xn,w) を求めるようになりました。以前は、w1~wd に w0 が追加されていましたが、この w0 は他の w 演算とは異なるため、直接飛び出しました。つまり、b です
。 w0(b) はバイアス項目である必要があります。バイアス項目がある理由については、詳細についてはスイカの本を読む必要があります)
次に、 distance(x,b,w) を求めます。x' と x'' は平面上の点、x はデータ点 (超平面上にあるとは限りません)、wTx' + b = 0 によると、wTx' があります。 = -b、同じ理由: wTx'' = -b
ここには、w がこの超平面の法線ベクトルであることを証明するための特別な場所があります。(超平面について、他の人の記事を読んだのですが、なぜ w が法線ベクトルなのか説明していないようでした。)
法線ベクトルがわかると、その平面上に点 x' がある場合、x と x の間の距離がわかります。 ' 実際にはベクトル xx です 'w への投影、つまり次のようになります:
これはハードマージン SVM であるため、このラインはすべての点のペアに分割されます。そのため、次のようになります:
そして yn=±1 であるため、次のようになります。絶対値を取り除きます:
その後、解きやすいように説明します:
定義:
それから、次のようになります:
なぜ 1 なのかというと、実際のところ、定数はどれでも問題ありません。ここでの集中砲火は、関数区間と幾何学的な知識が含まれることを示しています。間隔は?? 。赤い石を見て、w と b が同時にスケーリングされ、得られる平面は同じなので、yn ( w 1 T xn + b 1 ) = 1 y_n(w1^Tx_n+b1) を制御できるとします。 )=1yん( w1 _T ×ん+b1 )_=1 (Oh O o??)min ( n = 1... N ) yn ( w 1 T を
満たす必要があります)xn + b 1 ) = 1 min_(n=1...N) y_n(w1^Tx_n+b1)=1分_ _(n=1 . 。。N )とん( w1 _T ×ん+b1 )_=1
しかし、それでも解くのは難しいので、条件を緩和して、yn ( w T xn + b 1 ) > = 1 y_n(w^Tx_n+b1)>=1 とします。yん( wT ×ん+b1 )_>=1 を示し、緩和後、最適解または h がyn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 をyん( wT ×ん+b1 )_=1 yn ( w 1 T xn + b 1 ) > 1.126 y_n(w1^Tx_n+b1) > 1.126 となるような
最適解のセット (b1,w1) を見つけると仮定します。yん( w1 _T ×ん+b1 )_>1 . 1 2 6であれば、より良い解のセットも見つけることができます (b 1 1.126 \frac{b1}{1.126}1 . 1 2 6b1 _,w 1 1.126 \frac{w1}{1.126}1 . 1 2 6w1 _)、マージン = 1 ∣ ∣ w ∣ ∣ margin=\frac{1}{||w||}に従って余裕_ _ _ _ _=∣ ∣ w ∣ ∣1、w/1.126が小さくなり、マージンが大きくなる。したがって、前の最適解 (b1, w1) は最適ではなく、矛盾が生じます。したがって、yn ( w T xn + b 1 ) > 1 y_n(w^Tx_n+b1) > 1 となるような群解が存在する限り、yん( wT ×ん+b1 )_>1 の場合、 yn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 のようなより良い解を見つけることができます。yん( wT ×ん+b1 )_=1であるため、最適解はyn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 であることがyん( wT ×ん+b1 )_=1。
最後に、以前 min を求めていましたが、これを統一するために1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} とします。∣ ∣ w ∣ ∣1逆を考えてみましょう。最大値を求めます1 ∣ ∣ w ∣ ∣ max\frac{1}{||w||}マックス_ _∣ ∣ w ∣ ∣1min ∣ ∣ w ∣ ∣ min||w||に変更します。m i n ∣ ∣ w ∣ ∣。||w|| には根号があるので、根号を除いて w の 2 乗となり、行列で表すと wTw となり、最後に1 2 \frac{1}{2}21(派生のために追加された感じ??)。最終的には次のようになります。
最後の楽しい時間です。式 x1x2 は、y=kx+b の x と y にそれぞれ対応することに注意してください。次に、 d = ∣ A x 1 + B x 2 + C ∣ ( A 2 + B 2 ) に従って、d=\frac{|Ax1+Bx2+C|}{\sqrt{(A^2+ B^2)} }d=( A2 +B2 )∣ A x 1 + B x 2 + C ∣, x 1 + x 2 = 1 x1+x2=1 を単純化します。× 1+× 2_=1は1 ∗ x 1 + 1 ∗ x 2 − 1 = 0 1*x1+1*x2-1=01∗× 1+1∗× 2_−1=0の場合、A = 1 、 B = 1 、 C = − 1 A=1、B=1、C=-1あ=1 、B=1 、C=− 1、x1 の x1 と x2 (実際には x1 の x と y) を代入します。これは次のようになります。
P4 1.4
このグループ(X,Y)を例にすると、(i)~(iv)が得られるので、w1>=1、w2<=-1であることがわかるので、w1^2 + w2^2 >=2 なので、1 2 w T w > = 1 \frac{1}{2}w^Tw>=1 となります。21wTw _>=1 、w1、w2、bに適切な値を代入すると、g svm=sign (x1 - x2 - 1)が得られます
では、一般的なケースにどう対処すればよいでしょうか? この問題を解決してください: この問題には
2 つの特徴があります:
二次計画法 (二次計画法/凸最適化/QP 問題です) にはすでに既知の解決策があり、その後は代入のみで十分です: 最後に、非線形問題の場合は
Z 空間を使用するだけです。前
P5 1.5
SVM と以前の正則化 (Z 空間など) の違いは接触と呼ばれます。
この 2 つの目的はほぼ逆であることがわかり、SVM も正則化の一種ですが、Ein=0 とします。
マージンを0に設定した場合 ( A 0 A_0あ0)、PLAと同じ。幅が A 1.126の場合、ルールを満たさない場合は選択しないでください。幅はA 0 A_0より大きくなります。あ0タイプが少ないため、状況も少なくなります -> (偽) VC 次元が少なくなります -> 一般化が向上します。
この球の場合、ρ = 0 ρ=0r=0 は3 点を粉砕できるため、ρ = 3 2 ρ=\frac{\sqrt{3}}{2}vc= 3 となりr=23の場合、この円の半径は3 \sqrt{3}です3, 点が 3 つあるので、最大 1 ペアが反対側にあり、さらに粉砕できない点がもう 1 つあるため、このときd vc < 3 になります。次のレッスンでは、
マージンの大きい超平面と特徴変換を組み合わせた非線形 SVM を紹介します。