林玄天の機械学習テクニックに関するメモ (1)

最終的に機械学習テクニックに到達し、各章を完了した状態に保ち、すぐに更新するようにしてください。コーナーストーンは書き終わるまで書き続けなかったのですが、今思い返してみると何を書いていたのかわかりませんが、メモを見ると文章がめちゃくちゃで、ひっくり返ったような気がします。ゆっくりと改善してください。
この技術はかなり難しいと聞いたので、マスターのブログに投稿して祝福してください:
Red Stone: 非常によく表現されていると思います。

林玄天の機械学習テクニック ノート (2)
林玄天の機械学習テクニック ノート (3)

1. 線形SVM

P1 1.1
このコースの後に 3 つの特徴変換に関する [テクニック] を紹介した後
1. 特徴変換の使用方法と特徴変換の複雑さを制御する方法: SVM (サポート ベクター マシン、かなり難しそうです) を使用します。
2 . 予測特徴と予測特徴を見つける方法それらを組み合わせてモデルのパフォーマンスを向上させる: AdaBoost (段階的強化方法)
3. 隠れた機能を見つけて学習してマシンのパフォーマンスを向上させる方法: Deep Learning (深層学習!!!)


P2 1.2
ここに画像の説明を挿入
PLA では、実際に一連のデータを異なる分割にすることができます。上の 3 つの画像はすべて「正しい」です。すべての点が正しく分割されていることが保証されており、VC バウンドによれば Eout は同じですが、人間の脳によれば、右端の画像の分割の方が優れているはずです
ここに画像の説明を挿入

なぜ?データには多少のノイズや測定誤差が含まれるため、実際の状況は必ずしも ooxx 上にあるわけではなく、灰色の領域に分布している可能性がありますが、これも合理的です。左図の分割線の×に近い場合、多少の振動があると○の範囲まで走りやすくなり、エラーが発生します。したがって、エラー許容率 (エラーを許容する能力) (伝説的な堅牢性?) を向上させるには、「より強力な」ラインを呼び出す必要があります。明らかに、最も強力なラインは、すべてが正しいことを保証することです。最も近い点から最も遠い線。
ここに画像の説明を挿入
ここに画像の説明を挿入
もちろん、「太い」に変化しても「太い」にならないこともあり、糸が太ければ太いほど強度が高くなります。学術的には「脂肪」をマージンといいます。以下はマージンを最大化する w を表す公式です: 「最も強い線は、すべてが正しいことが保証されている場合に最も近い点から最も遠い線です。」
ここに画像の説明を挿入


P3 1.3
ここに画像の説明を挿入
では distance(xn,w) を求めるようになりました。以前は、w1~wd に w0 が追加されていましたが、この w0 は他の w 演算とは異なるため、直接飛び出しました。つまり、b です
公共料金の請求書 公共料金の請求書
。 w0(b) はバイアス項目である必要があります。バイアス項目がある理由については、詳細についてはスイカの本を読む必要があります)

次に、 distance(x,b,w) を求めます。x' と x'' は平面上の点、x はデータ点 (超平面上にあるとは限りません)、wTx' + b = 0 によると、wTx' があります。 = -b、同じ理由: wTx'' = -b
ここに画像の説明を挿入
ここには、w がこの超平面の法線ベクトルであることを証明するための特別な場所があります。(超平面について、他の人の記事を読んだのですが、なぜ w が法線ベクトルなのか説明していないようでした。)
法線ベクトルがわかると、その平面上に点 x' がある場合、x と x の間の距離がわかります。 ' 実際にはベクトル xx です 'w への投影、つまり次のようになります:
ここに画像の説明を挿入
これはハードマージン SVM であるため、このラインはすべての点のペアに分割されます。そのため、次のようになります:ここに画像の説明を挿入
そして yn=±1 であるため、次のようになります。絶対値を取り除きます:
ここに画像の説明を挿入
その後、解きやすいように説明します:
定義:ここに画像の説明を挿入
それから、次のようになります:ここに画像の説明を挿入
なぜ 1 なのかというと、実際のところ、定数はどれでも問題ありません。ここでの集中砲火は、関数区間と幾何学的な知識が含まれることを示しています。間隔は? 赤い石を見て、w と b が同時にスケーリングされ、得られる平面は同じなので、yn ( w 1 T xn + b 1 ) = 1 y_n(w1^Tx_n+b1) を制御できるとします。 )=1y( w1 _T ×+b1 _=1 (Oh O o??)min ( n = 1... N ) yn ( w 1 T を
満たす必要があります)xn + b 1 ) = 1 min_(n=1...N) y_n(w1^Tx_n+b1)=1_ _(n=1 . N ( w1 _T ×+b1 _=1

しかし、それでも解くのは難しいので、条件を緩和して、yn ( w T xn + b 1 ) > = 1 y_n(w^Tx_n+b1)>=1 とします。y( wT ×+b1 _>=1 を示し、緩和後、最適解または h がyn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 をy( wT ×+b1 _=1 yn ( w 1 T xn + b 1 ) > 1.126 y_n(w1^Tx_n+b1) > 1.126 となるような
最適解のセット (b1,w1) を見つけると仮定します。y( w1 _T ×+b1 _>1 . 1 2 6であれば、より良い解のセットも見つけることができます (b 1 1.126 \frac{b1}{1.126}1 . 1 2 6b1 _w 1 1.126 \frac{w1}{1.126}1 . 1 2 6w1 _)、マージン = 1 ∣ ∣ w ∣ ∣ margin=\frac{1}{||w||}に従って余裕_ _ _ _ _=w 1、w/1.126が小さくなり、マージンが大きくなる。したがって、前の最適解 (b1, w1) は最適ではなく、矛盾が生じます。したがって、yn ( w T xn + b 1 ) > 1 y_n(w^Tx_n+b1) > 1 となるような群解が存在する限り、y( wT ×+b1 _>1 の場合、 yn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 のようなより良い解を見つけることができます。y( wT ×+b1 _=1であるため、最適解はyn ( w T xn + b 1 ) = 1 y_n(w^Tx_n+b1)=1 であることがy( wT ×+b1 _=1

最後に、以前 min を求めていましたが、これを統一するために1 ∣ ∣ w ∣ ∣ \frac{1}{||w||} とします。w 1逆を考えてみましょう。最大値を求めます1 ∣ ∣ w ∣ ∣ max\frac{1}{||w||}マックス_ _w 1min ∣ ∣ w ∣ ∣ min||w||に変更します。m i n w ||w|| には根号があるので、根号を除いて w の 2 乗となり、行列で表すと wTw となり、最後に1 2 \frac{1}{2}21(派生のために追加された感じ??)。最終的には次のようになります。
ここに画像の説明を挿入
最後の楽しい時間です。式 x1x2 は、y=kx+b の x と y にそれぞれ対応することに注意してください。次に、 d = ∣ A x 1 + B x 2 + C ∣ ( A 2 + B 2 ) に従って、d=\frac{|Ax1+Bx2+C|}{\sqrt{(A^2+ B^2)} }d=( A2 +B2 ) A x 1 + B x 2 + C, x 1 + x 2 = 1 x1+x2=1 を単純化します。× 1+× 2_=11 ∗ x 1 + 1 ∗ x 2 − 1 = 0 1*x1+1*x2-1=01× 1+1× 2_1=0の場合、A = 1 、 B = 1 、 C = − 1 A=1、B=1、C=-1=1 B=1 C=1、x1 の x1 と x2 (実際には x1 の x と y) を代入します。これは次のようになります。
ここに画像の説明を挿入


P4 1.4
ここに画像の説明を挿入
このグループ(X,Y)を例にすると、(i)~(iv)が得られるので、w1>=1、w2<=-1であることがわかるので、w1^2 + w2^2 >=2 なので、1 2 w T w > = 1 \frac{1}{2}w^Tw>=1 となります。21wTw _>=1 、w1、w2、bに適切な値を代入すると、g svm=sign (x1 - x2 - 1)が得られます
では、一般的なケースにどう対処すればよいでしょうか? この問題を解決してください: この問題には
ここに画像の説明を挿入2 つの特徴があります:
ここに画像の説明を挿入
二次計画法 (二次計画法/凸最適化/QP 問題です) にはすでに既知の解決策があり、その後は代入のみで十分です: 最後に、非線形問題の場合は
ここに画像の説明を挿入
Z 空間を使用するだけです。前
ここに画像の説明を挿入


P5 1.5
SVM と以前の正則化 (Z 空間など) の違いは接触と呼ばれます。
ここに画像の説明を挿入
この 2 つの目的はほぼ逆であることがわかり、SVM も正則化の一種ですが、Ein=0 とします。
ここに画像の説明を挿入
マージンを0に設定した場合 ( A 0 A_00)、PLAと同じ。幅が A 1.126の場合、ルールを満たさない場合は選択しないでください。幅はA 0 A_0より大きくなります。0タイプが少ないため、状況も少なくなります -> (偽) VC 次元が少なくなります -> 一般化が向上します。
ここに画像の説明を挿入
この球の場合、ρ = 0 ρ=0r=0 は3 点を粉砕できるため、ρ = 3 2 ρ=\frac{\sqrt{3}}{2}vc= 3 となりr=23 の場合、この円の半径は3 \sqrt{3}です3 , 点が 3 つあるので、最大 1 ペアが反対側にあり、さらに粉砕できない点がもう 1 つあるため、このときd vc < 3 になります。次のレッスンでは、
ここに画像の説明を挿入
マージンの大きい超平面と特徴変換を組み合わせた非線形 SVM を紹介します。
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/Only_Wolfy/article/details/89470194