章古典アルゴリズム

章古典アルゴリズム

EDITORIAL 0

この章では、SVM、ロジスティック回帰と決定木3個の古典的なアルゴリズムを紹介します。これらの3つのアルゴリズム李ハング、「統計的学習方法は、」3つの章から出た説明に焦点を当てています。このセクションの質問は、書籍の根拠を問うことにより、弱すぎる自分自身を発見、適切な根拠を持っている必要がありますが、ほとんどは学ぶために人の能力の基礎を学ぶことができます。(トミーは、知識の簡単な基礎、より困難なより抽象的な知識ベース、賛成の手を意味するものではありません、何かを言われたときに覚えている!)「百台の顔機械学習」はかつて、非常に良い本である時間を考えると、十分ではありませんし、私の知識カバーのマクロ視点から様々なニーズ、一時的に迅速な最初のパス、。

 

1つのサポートベクターマシンSVM

SVMの導入については、多くのオンラインブログを説明するために行ったがあります。ここで強くお勧めしますhttps://cuijiahua.com/blog/2017/11/ml_8_svm_1.htmlブログ、それが十分でなかった場合は、7月に組み合わせることができる非常に素晴らしいhttps://blog.csdn.net/v_JULY_v/article/details / 7624837  および統計的学習方法の李ハング。これらの個人は絶対に十分な。自宅に近い、ここでは、このセクションで問題提起されています

Q1:超平面SVM分類に突起を作るために、それぞれ、線形点の2種類に分けることができる空間では、これらの点を平面上に投影されているが、依然として超線形分離それは?

A1:すべての最初は、超平面で点の2種類を分離することができる、線形分離が何であるかを明確にします。任意の2点の線形分離可能なため、それらは超平面SVM上にある投影された直線不可分に(図3.9及び図P52 3.10)。KKT条件を証明するためにそれを使用する必要性について、数学的知識のも、シリーズをラグランジュ。これらの知識は、SVMの導出に使用され、ここでは省略されています。

Q2:SVMの訓練誤差がゼロになるように、パラメータのセットがある場合は?

A2は:ガウシアンカーネル(使用してK(X、Z)= E ^ { -  || XZ || ^ 2 / \ガンマ^ 2}トレーニングセットが同じ位置2点の存在しない場合、)SVMの訓練を、パラメータのセットがある\ {\ alpha_1、...、\ alpha_m、B \}とパラメータ\ガンマSVM訓練誤差がゼロになるように。

Q3:SVM分類器の訓練誤差はゼロが存在しなければならないのですか?

A3:が存在する必要があります。P56を参照してください。

Q4:スラック変数SVMの訓練誤差の追加を行うことができますゼロですか?

A4:必ずしもありません訓練誤差がゼロのモデルになってしまいます。あなたはスラック変数を追加線形SVMモデルを訓練するためにSMOアルゴリズムを使用する場合は、私たちの最適化の目標は変わっていない、と訓練誤差を最小限にもはやです。2に含まれている最適化されたSVMモデルの目的関数と変数のたるみを考えてみましょうC \ sum_ {I} ^ {M} \ xi_i\ FRAC {1} {2} || W || ^ 2我々パラメータ場合はC小さな値を選択する際に、後者は割合の大きな正則化項の最適化を占有します。したがって、訓練誤差が、ポイントのパラメータを持つ小さい優れた結果であろう。ときにC時間が0に設定され、ワットだけでなく、0を摂取した場合、最適化の目標を達成することができます。(P57)

 
2ロジスティック回帰
それが推奨されますが、再び https://cuijiahua.com/blog/2017/11/ml_6_logistic_1.html/comment-page-1/#comments ブロガー、理論+非常に、詳細な理解しやすい、珍しい良い記事で実用的!
 
Q1:ロジスティック回帰、線形回帰、類似点と相違点に比べて?
A1: ロジスティック回帰は、分類問題だった、線形回帰は、問題への回帰です 一般的には、両方の最尤推定値モデリングのトレーニングサンプルを使用します。線形回帰は、最小二乗法を用いて、ロジスティック回帰尤度関数によって学習します。両方のハイパーパラメータを解く過程で、勾配降下法が使用されてもよいです。
Q2:マルチラベル分類問題を扱うロジスティック回帰を使用して、だけでなく、それらの間の関係は、シーンで使用されている一般的な方法であり、これはどのように,?
A2:複数の問題を処理するための分類アルゴリズムは、特定の問題の定義に依存します。まず、 一つだけのサンプルがラベルに対応している場合 、我々は、 対象と異なるラベルに属する各サンプルの確率が想定できる幾何分布は 複数の使用ロジスティック回帰を分類します ロジスティック回帰バイナリロジスティック回帰の数は、実際にはマルチラベル分類の拡張です。サンプルの存在は、複数のラベルに属していてもよい場合には、我々はKバイナリロジスティック回帰分類器を訓練することができます。
 
3ディシジョン・ツリー
それは推奨されているブロガー  https://cuijiahua.com/blog/2017/12/ml_13_regtree_1.html
Q1:そこに一般的に使用されるヒューリスティック機能ツリーは何ですか?
A1:ID3 ----最大の情報ゲインP63         
  C4.5 ----最大情報ゲイン比P64
  CART ----最大のジニ係数(ジニ)P65
     
Q2:どのように木を剪定するには?
A2:一般的に2つのメソッドを木の剪定剪定、前と後の剪定
  事前剪定:以前の木の成長を停止する決定木を生成する過程で。特長:アイデア直接、アルゴリズムは単純で、高効率で、大規模な問題を解決するのに適した、欠点は、さまざまな問題のために非常に異なるがあるだろうということで、判断するいくつかの経験を必要とし、事前に剪定いくつかの制限がありますが、あなたは銭フィッティングリスク。
  剪定後:前剪定に関連して、剪定方法は、通常より強力な汎化能力ツリーを得ることができますが、時間コストはさらに大きくなります。
 
剪定プロセスは、決定木モデルにおける極めて重要な役割を占めています!異なるデータ型に基づいて実用的なアプリケーションでは、剪定の理論的な方法を理解し、規模や使用に対応する木の剪定戦略の種類を決定し、柔軟かつ最適な選択を見つけます。

 

おすすめ

転載: www.cnblogs.com/guohaoblog/p/11204519.html