決定木Suoyinへ4.探検

  決定木は、最初の機械学習アルゴリズムの一つです。1966年にシステムを学習CLSでは、1979年までは、ID3、1983年から1986年の唯一のプロトタイプを決定木アルゴリズムの概念を提案し、ID3アルゴリズムをまとめると、簡略化され、正式に、決定木学習の理論を確立機械学習の観点から、これは決定木アルゴリズムの出発点であり、1986年に、改革に基づいて行う科学者たちは、バッファ・ノードの導入、ID4は1993年に、アルゴリズムを提案し、ID3アルゴリズムはさらに改善するために開発されていますC4.5アルゴリズムに、機械学習アルゴリズムは、トップ10の一つとなっています。また、分岐は、分類と回帰ツリーアルゴリズムC4.5と異なるが、主に予測するために、分類および回帰ツリーアルゴリズムのために使用されているので、それは完全にID3の二つの領域に決定木機械学習の分類と回帰の理論をカバー。この章のデータが含まれます:

  • 決定木アルゴリズムを考えました
  • エントロピーとID3
  • C4.5アルゴリズム
  • Scikit-学び、回帰ツリー

4.1決定木の基本的な考え方

  イデオロギーのソースツリーには、それぞれの人の脳は、If条件、その選択や決定を表す場合、これを決定するために、同様のロジックを、持っている、非常に簡単です。最初は、決定木構造区切られたデータのこのタイプを使用することです。以下から決定木生成プロセスの最も簡単な例を説明します。

1つのインスタンスから4.1.1スタート 

  後に家のIT企業は、次の表を取得するために数ヶ月のために、売上を増加させるために、均一なアンケートを確立するために、お客様の会社のすべての種類、統計的な販売データをノートPCを販売していると仮定します。

  売上ボスの効率を改善するために、私はあなたが販売スタッフの作業を容易にするために、潜在的な顧客でテーブルを分類願っています。これには二つの問題を提示します:

  1.顧客を分類する方法

  2.分類のための基礎は、販売スタッフへの指導を与えますか?

分析:

  この観点テーブルの最初の列、小さなテーブル、15行の合計から、各行の値とは異なる人口統計的特性値を表します。、小麦購入していない:最後の2つの値を、分類ラベルとして理解することができます。

  任意の与えられた特性値のクライアントのために、アルゴリズムのニーズは、企業がこの顧客を分類する手助けその後、顧客が予想されて購入するコンピュータの種類に属し、またはコンピュータ入力の種類を購入していない、との判断を与えます基礎。

  次のアイデアのCLS(概念学習システム)アルゴリズムが導入されました。理解を容易にするために、我々第1の実施形態は、手で木の上に実装されています。根、葉ノードと内部ノード:私たちは三つのカテゴリーに意思決定ツリーノードを設計します。あなたは空の木で起動した場合、任意の第一の特徴は、rootで選択します。私たちは特定の条件に応じて分割され、サブセットに分けた場合、空である、またはすべてのサンプルのサブセットが同じカテゴリラベルに分類されています、その後、サブセットはリーフノードである、またはこれらのサブセットは、決定木の内部ノードに対応します。それは内部ノードである場合、あなたは新しいカテゴリラベルは、すべてのサブセットがあるまで、サブセットを分割し続けて選択する必要がありますリーフノードは、それが空であるか、同じクラスに属しています。

  次に我々は、上記の規則に従って分割されています。若い、古い:私たちは、ルートノードとして年齢を選んだのは、この機能の値が3つの値をとります。我々は、すべてのサンプルが古い、若い三組、決定木で作られた最初の層になります。

  今、私たちは次のように表になる、唯一の年齢との関係、その他の機能を無視します

  (1)年齢=青、購入するかどうか:購入していない、買います

  (2)年齢=購入するかどうか、で:買います

  購入するかどうか=旧(3)年齢、:買う、買いません

  年齢は中年、一貫してこの時点で買いになるタグを購入するかどうかをしたときは、決定木の中年リーフノードと呼ばれています。若者と高齢者の年齢は、購入するかどうか二つの選択肢がある場合、我々は打破し続けることができます。

  さて、年齢特性等しい治療の選択肢せん断若者が新しいフォームを構成し、第二の特徴---収入、所得応じてソートを選択します。

 

  その中でも、高所得と低所得固有値のみカテゴリラベルには、リーフノードとして。そして、我々は次の表を持って、次の機能区分---中所得の学生に進みます。

  2つのだけの値が、否定前記学生は、対応するラベルは購入しないため、対応するタグを購入するときに、取られていることです。意思決定ツリー内のすべてのノードの学生の特性の数は、左の枝を生成します。

  前記即ちノードを分割し続けることができる、図示:(内部ノードまたはルート行列として丸く、楕円ノードはリーフノードであり、細分化することができない一般的決定を生成するために、すなわち、リーフノード分類ラベルを指します) 。

  接下来,继续右侧分支的划分,这里划分我们做一个简单的变化,划分的顺序为信誉->收入->学生->计数,这样整个划分过程就变得简单了。当信誉为良时类别标签仅有一个选项,就是买,那么信誉为良的叶子节点:当信誉取值为优的时候,类别标签仅有一个选项,就是不买,如下图所示::

 

  最终的划分结果如下图:

 

 

   我们把所有买的节点都放在右侧,这样,对于任何用户,当出现从内部向左到叶子节点的路径时,就是不购买的用户。

  从定性的角度对潜在客户做出判断,下面给出定量的判断:

  我们知道,计数特征总数为1024,将途中的路径变除以1024,就得到了每个节点的购买概率。

おすすめ

転載: www.cnblogs.com/xiaochi/p/10975158.html