[データマイニング] ----データクラスタリングのビッグデータマイニング、分類、回帰

1分類(分類)

       個別の結果が得られ、二つのアプリケーションのいずれかを学習監修。

例如向模型输入人的各种数据的训练样本,产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。

  分類は、モデル化や予測離散確率変数のための教師付き学習アルゴリズムです。ユースケースは、電子メールフィルタリング、金融取引の詐欺を含めると、このような出力タスクとして、従業員のカテゴリを予測します。

  多くの回帰アルゴリズムではなく連続的な値よりも、その対応する分類アルゴリズム、予測分類アルゴリズムは、通常、カテゴリ(または確率のカテゴリ)に適用されています。

       非常に重要なタスクをマイニング分類データは、使用分類技術は、データから関数またはデータ・クラス(しばしば呼ばれる分類器)を記述するモデルを抽出し、各オブジェクトは、データセットに起因します知られているオブジェクトクラス。同定された学習サンプルの各クラスのデータ・オブジェクトを学習することにより、対応するオブジェクトクラスを識別するために、知識発現データとの間に形成することができる、即ち、機械学習の観点から、分類は、教師あり学習です。この意味で、知識とソースデータマイニング目標のタイプは、サンプルデータが分類されるに応じて形成されており、従って、将来のデータを分類予測することができます。このような医療診断、信用格付け、クレジットカード、画像パターン認識などのアプリケーションの広い範囲の分類。

  得られた分類マイニング分類モデルの出力は、様々な形態をとることができる説明します。主要な表現の一つは、次のとおり分類規則、決定木、ニューラルネットワークおよび数式。また、最近になって、新しいアプローチの台頭 - ラフ集合、知識表現の生成規則を使用すること。

  分類(分類)プロセスである:未知のオブジェクトクラスマークのクラスを予測するためにモデルを使用できるように、データモデルまたは概念的タイプ(または機能)を識別し、区別するために記載されています。分類分析は、現在、最も広く商業的に使用されるデータマイニングでより重要な課題です。分類の目的は、分類機能、または分類モデルを(しばしば分類器とも呼ばれる)を学ぶことであり、データベース内のモデルのデータ項目は、特定のカテゴリ内の特定のクラスにマップすることができます。
  分類および回帰の両方が自動的に将来のデータを予測することができます与えられたデータの記述の促進に過去のデータレコードから派生することを目指して、予測することができます。違いは、分類のリターンと出力値の離散的なクラス、戻りの出力値が連続していることです。どちらも通常は上がって枝を満たすために、データに沿って、検索を開始するルートからのデータ値に基づいて決定木の形では、カテゴリを判定することができる葉に行ってきました。
   分類器を構築するために、入力として設定されたトレーニングデータの必要性。トレーニングセットは、データベースレコードまたはタプルの集合で構成され、各タプルは(も知られている属性または特性)が、関連する特徴ベクトルフィールドの値からなる、加えて、トレーニングサンプル標識カテゴリがあります。特定のサンプルの形で表現することができるよう、(V1、V2、···、 VN; C); viはそのフィールドの値、C意味カテゴリを示す、方法。ように統計的手法、機械学習、ニューラルネットワーク分類器コンストラクタとがあります。 
  異なる分類は異なる特性を持っています。2)計算の複雑さ、簡潔3)モデルによって記述1)予測精度:3つの分類または比較評価基準があります。予測精度が最も特に予測分類タスクのために、より多くのスケールを使用しています。操作対象がデータの膨大な量なので、問題空間と時間の複雑さが非常に重要な側面となりますので、計算の複雑さは、特定の実装の詳細とハードウェア環境、データマイニングによって異なります。わかりやすい分類タスクのために、よりシンプル多くの人気モデル記述。
  また、データにいくつかの大きなノイズに関連する機能と、データを分類する一般的な効果は、関連する他の人の間でいくつかの値の欠陥、いくつかのまばらな、あることに注意してフィールドまたはプロパティが強く、いくつかのプロパティが離散的であると連続する値のまたはいくつかのハイブリッド。現在広くない特定の方法は、データの特性の多様に適応することができない存在であることを認識 

 

1.1ロジスティック回帰(正則化)

ロジスティック回帰は、分類方法に対応する線形回帰、および線形回帰導出アルゴリズムアウトの基本的な考え方です。予測された中間体0-1にマッピングされたロジスティック関数(すなわち、シグモイド関数)によるロジスティック回帰は、予測値は確率はカテゴリーと考えることができることです。

このモデルはまだ、(すなわち、データは超平面を完全に分離することができる)ので、データのみが線形分離可能で、良好な性能を持っているために、アルゴリズム「線形」です。同じモデルは、ロジスティックモデル係数を罰すると正則を行うことができます。

  • 長所:出力が良い確率解釈を持っており、アルゴリズムは、オーバーフィッティングを避けるために正規化することができます。ロジスティックモデルは確率的勾配降下法を使用することは簡単ですし、新しいデータモデルの重みを更新しました。

  • 欠点:非線形決定境界、または比較的貧弱なパフォーマンスの数のロジスティック回帰。

  • Python実装します。http://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

  • R達成します。https://cran.r-project.org/web/packages/glmnet/index.html

1.2分類ツリー(積分法)

そして、分類アルゴリズムを対応する回帰ツリーは、分類木です。彼らは、CARTアルゴリズムは非常に有名で、「分類および回帰ツリー(CART)、」それを呼び出すために、通常は決定木を参照するか、もう少し正確に。

単純なランダムフォレスト

  • 長所:回帰と同様に、分類ツリー法も統合されているパフォーマンスは実際には非常に良いです。彼らは一般的に、比較的堅牢でスケーラブルな異常なデータを持っています。理由は、その階層構造の、統合された分類ツリー法は、当然、非線形決定境界をモデル化することができます。

  • 短所:単一のツリーを拘束されないが、この局面の影響を弱めることが統合されたプロセスを使用して、フィッティング過剰になる傾向があります。

  • ランダムフォレストPython実装します。http://scikit-learn.org/stable/modules/ensemble.html#regression

  • ランダムフォレストRを達成します。https://cran.r-project.org/web/packages/randomForest/index.html

  • 木のPython実装を後押しグラデーションます。http://scikit-learn.org/stable/modules/ensemble.html#classification

  • Rは、木の勾配を後押し実現します。https://cran.r-project.org/web/packages/gbm/index.html

 

1.3深さの調査

学習の深さも分類問題に適応するのは簡単です。実際には、そのような画像分類として分類の複数のタスクにアプリケーションを学習の深さ。

  • 長所:深い学習は、音声、テキストおよび画像データの分類のための理想的です。

  • 短所:と回帰の問題は、ニューラルネットワークの深さとして、トレーニングデータの多くを必要とするので、それは汎用アルゴリズムではありません。

  • Pythonのリソースします。https://keras.io/

  • Rリソース:のhttp://mxnet.io/ 

 

1.4 SVM

サポートベクターマシン(SVM)技術は、非線形分類問題に拡張と呼ばれるカーネル関数に使用することができ、計算アルゴリズムは、本質的に、サポートベクトルと呼ばれる2つの観測値との間の距離です。サンプル間隔での国境を最大化しようとしているSVM決定境界アルゴリズムは、したがって、SVM分類器も大きなピッチとして知られています。

SVMのカーネル関数が非線形変換を使用して、非線形は線形問題に問題を変換します

例えば、線形カーネルを使用してSVMは間隔とより堅牢を最大化するため、サポートベクターマシン、ロジスティック回帰分析と同様の結果を得ることができるようになります。そのため、実際には、最大の利点は、あなたが、非線形SVMのカーネル関数の非線形決定境界のモデリングを使用することができるということです。

  • 長所:SVM決定界エネルギーの非線形モデリング、および多くの代替カーネルの形成があります。SVMはまた、かなりの対向するオーバーフィッティング高次元空間において特に顕著であり、堅牢。

  • 短所:しかし、SVMアルゴリズムは、右のカーネルは非常に重要であり、パラメータを調整することは困難である、大規模なデータセットに拡張することはできません選択することにより、メモリ集約的です。現在、業界では、ランダムフォレストはSVMよりも通常は優れています。

  • Python実装します。http://scikit-learn.org/stable/modules/svm.html#classification

  • R達成します。https://cran.r-project.org/web/packages/kernlab/index.html

 

1.5ナイーブベイズ

ナイーブベイズ(NB)は、ベイズ分類法であるとの条件付き独立性の仮定に基づいて特徴付け。ナイーブベイズモデルでは、本質的に確率テーブル、そのトレーニングデータを更新することによって、この表の確率です。新しい観測を予測するために、ナイーブベイズアルゴリズムは確率テーブルにおける確率の最大のカテゴリを探していたサンプルの特性値に基づいています。

コアは、アルゴリズムの独立性の仮定(各機能間で互いに独立して)、そして現実の世界では現実的ではないことを、この基本的な前提の特徴的な条件であるため、それは、「シンプル」と呼ばれています。

  • 長所:でも、条件付き独立の仮定に設定することは困難であるが、実際にはナイーブベイズアルゴリズムのパフォーマンスが予想外に良いです。このアルゴリズムは、実装が容易であり、データセットが拡大して更新することができます。

  • 短所:ナイーブベイズアルゴリズムは単純すぎるので、それはまた、頻繁に交換分類アルゴリズムの上に表示されています。

  • Python実装します。http://scikit-learn.org/stable/modules/naive_bayes.html

  • R達成します。https://cran.r-project.org/web/packages/naivebayes/index.html


      

2.クラスタリング(クラスタリング)

       教師なし学習結果。オブジェクトの他のセットを用いてクラスタリングの結果は、互いに類似オブジェクトの同じコレクションをコレクションにコレクションオブジェクトのセットを生成する異なります

没有标准参考的学生给书本分的类别,表示自己认为这些书可能是同一类别的(具体什么类别不知道)。

  クラスタリングは、自然集団がサンプル(すなわち、クラスタ)を観察見つけるために、アルゴリズムは、データの内部構造に基づいており、教師なし学習課題です。ユースケースは、顧客セグメンテーション、クラスタリングのニュース、記事及びその他の推奨が含まれます。

  学習は、教師なしクラスター(すなわち、データがマークされていない)であり、多くの場合、データの評価結果を可視化するために使用されているので。(すなわち、集中トレーニング前にマーククラスタの存在下での)「正しい答え」がある場合には、分類アルゴリズムは、より適切かもしれません。

  そして、分類技術、機械学習、クラスタリングは教師なし学習です。換言すれば、クラスタは、状況の分類情報の類似の原理に応じた情報をクラスタリングする方法に分類することが事前に知られていません。クラスタリングの目的は、できるだけ大きな物体の異なるカテゴリにできるだけ小さく同じカテゴリに属するオブジェクト、その差の違いを作ることです。そのため、意義が階層構造で編成コンテンツのクラスタリングにあるが、一緒に編成同様のことを観察しました。クラスタリングすることで、一つは密と疎の領域を特定し、ひいてはグローバルな分布パターン、およびデータ属性間の興味深い関係を見つけることができます。

   クラスタリング解析は活況を呈しフィールドです。クラスタリング技術は、主に統計的手法、機械学習、ニューラルネットワークベースの方法に基づいています。より代表的なクラスタリング技術は、ユークリッド距離、マンハッタン距離、ミンコフスキーの距離などの幾何学的距離クラスタリング方法に基づいています。クラスター分析は、広く商用、生物学、地理学、およびその他のネットワークのさまざまなサービスで使用されています。

  クラスタリング(クラスタリング)「に従って手段のような引き付ける原理」、異なるグループに集約サンプルのタイプを持っていない、データ・オブジェクトのそのようなコレクションは、本明細書に記載の方法とクラスタのセット、およびそのような各クラスタと呼ばれます。異なるクラスターのサンプルが十分に類似していないべきであるがクラスタ間で、同じサンプルに属するように、互いに類似するように設計されています。分類ルールと異なる、事前クラスタリングは知りませんが、いくつかのグループに分け、グループの種類、スペースに応じて差別化ルールのセットを定義するのか分からないされます。その目的は、変数というプロパティを表現するために数学の方程式の知識をタップし、空間的なエンティティの機能の性質との関係を見つけることを意図しています。
  現在、クラスタリング技術は、データマイニング、統計、機械学習、空間データベース技術、生物学やマーケティングの他の分野の分野をカバーし、急成長を遂げて、クラスター分析は、非常に活発な研究テーマにデータマイニング研究の場となっています。

       一般的なクラスタリングアルゴリズムが含まれ

K-は、クラスタリングアルゴリズム(K-mensclustering)が最も一般的クラスタリングアルゴリズムであることを意味します

中心点(K-MEDOIDS)アルゴリズム、CLARANSアルゴリズムに属するKの分割。

BIRCHアルゴリズムはAHP、CUREアルゴリズム、CHAMELEONアルゴリズムです。

DBSCANアルゴリズム、オプティクスアルゴリズム、DENCLUEアルゴリズム;:密度に基づいて

グリッドベースのアプローチ:STINGアルゴリズム、クリークアルゴリズム、WAVEクラスタアルゴリズム、モデルベースのアプローチ。

 

クラスタリング2.1 K-手段

K平均クラスタリングは、サンプル点間のクラスタリングの幾何学的距離(座標平面において、すなわち、距離)に基づいて、汎用アルゴリズムの尺度です。球状星団は、クラスと同様のサイズを発揮しながら、民族グループは、クラスタの中心をクラスタ化します。アルゴリズムは、合理的な結果を与えることができますほとんどの問題に直面するのに十分な柔軟性だけでなく、シンプルでもあるため、クラスタリングアルゴリズムは、初心者のアルゴリズムのために推奨されます。

  • 利点:クラスタリングアルゴリズムは単純で、十分に速いので、あなたのデータの前処理や機能は非常に効果的に動作するかどうか、そして、クラスタリングアルゴリズムは、驚くべき柔軟性を持っている最も人気のあるクラスタリングアルゴリズムであるKは、意味します。

  • 短所:このアルゴリズムは、クラスタの数を指定する必要があり、およびKの値の選択は、通常、決定するのは容易ではありません。実際の球状星団で、トレーニングデータはクラス、されていない場合も、その後、K平均クラスタリングは、いくつかの比較的低いクラスタを描画します。

  • Python実装します。http://scikit-learn.org/stable/modules/clustering.html#k-means

  • R達成します。https://stat.ethz.ch/R-manual/R-devel/library/stats/html/kmeans.html

2.2アフィニティー伝播クラスタリング

APクラスタリングアルゴリズムは比較的新しいクラスタリングアルゴリズムである、クラスタリングアルゴリズムは、2つのサンプル点の間の距離(グラフの距離)に基づいて、クラスタパターンを決定します。クラスタを使用したクラスタリング方法が小さく、等しくない大きさを有しています。

  • 長所:このアルゴリズムは、明らかに、クラスタの数を指摘する必要がある(ただし、「試料優先」と「減衰」及び他の超パラメータを指定する必要は)ありません。

  • 短所:主な欠点のAPクラスタリングアルゴリズムのトレーニング速度が比較的遅く、大量のメモリを必要とするので、拡張することは困難である大規模なデータセット。また、このアルゴリズムは、潜在的なクラスターの同じ種類が球状であると仮定しています。

  • Python実装します。http://scikit-learn.org/stable/modules/clustering.html#affinity-propagation

  • R達成します。https://cran.r-project.org/web/packages/apcluster/index.html

2.3階層的クラスタリング(階層化/凝集型)

階層的クラスタリングは、クラスタリングアルゴリズムの概念に基づいてシリーズです。

  1. クラスタとしてのデータポイントの始まり

  2. 各クラスタについて、同じ標準クラスタのマージに基づいて

  3. このプロセスは、クラスタの階層を取得する1つのクラスタのみを残し、それゆえまで繰り返されます。

  • 利点:階層的クラスタリングの主な利点は、もはや必要とされているクラスタが球状であると仮定されます。さらに、それは大規模なデータセットに拡張することができます。

  • 短所:K平均クラスタリングのようなビットは、アルゴリズムは、クラスタを(アルゴリズムの完了を保持する必要が後、すなわちレベル)の数を設定する必要があります。

  • Python実装します。http://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering

  • R達成します。https://stat.ethz.ch/R-manual/R-devel/library/stats/html/hclust.html

2.4 DBSCAN

DBSCANは、密度ベースのアルゴリズムであり、緻密な領域は、サンプル点のクラスタを形成します。最近密度クラスタを変更することができます新しい進歩HDBSCAN、として知られているもあります。

  • 長所:DBSCANクラスタが球形を想定する必要はない、とその性能は拡張可能です。さらに、それはすべてのポイントが異常なデータクラスタを削減クラスタに割り当てられている必要はありません。

  • 短所:ユーザーが「イプシロン」と「min_sample」これら二つのクラスタが定義されている密度の超パラメータを調整する必要があります。DBSCANこれらのスーパーのパラメータに非常に敏感。

  • Python実装します。http://scikit-learn.org/stable/modules/clustering.html#dbscan

  • R達成します。https://cran.r-project.org/web/packages/dbscan/index.html

 

エピローグ

それぞれの方法の長所と短所の回帰、分類およびクラスタリング3つの角度予備的な理解だけでなく、エンドそうで何これらのアルゴリズムの基本的な理解から、この記事。より多くの概念と詳細が表示されません上記のアルゴリズムのそれぞれは、我々はその機能が失われたのか分からないしている。しかし、研修の目標は何ですか、重み更新戦略は、問題のようにどのようないくつかあります。だから我々は常にいくつかの記事の検索に興味がある読者のために、これらのアルゴリズムの具体的な詳細を提供し、機械の心から願っています。

線形回帰:

ディシジョン・ツリー(統合的アプローチ):

SVM:

ディープ学習:

クラスタリングアルゴリズム:

 

3.回帰(回帰)

      二つのアプリケーションのいずれかを学習監修、連続結果を生成します。

例如向模型输入人的各种数据的训练样本,产生“输入一个人的数据,判断此人20年后今后的经济能力”的结果,结果是连续的,往往得到一条回归曲线。当输入自变量不同时,输出的因变量非离散分布。
 

  回帰は、数値連続確率を予測する変数とモデリングのための教師学習アルゴリズムです。一般的なユースケースはそうで連続的に変化予想価格は、株価チャートやテストの点数との例が含まれます。

  機能タスクは、数値目標変数とデータセットのリターンをマークすることです。換言すれば、各サンプルの数値ラベルが真の値アルゴリズムを監督することが観察されたがあります。

3.1線形回帰(正則化)

線形回帰は、最も一般的な処理タスクの回帰アルゴリズムの一つです。アルゴリズムの形で(2つだけの変数が直線である場合)、データセットにフィット超平面を使用することが望ましい、非常に簡単です。直線的な関係の可変データセットが存在する場合、それは非常に良いフィットすることができます。

実際には、単純な線形回帰は、典型的には、置換正則回帰法(LASSO、リッジと弾ネット)を使用しています。正則化は、実際にオーバーフィッティング技術のリスクを軽減するためにあまりにも多くの回帰係数を取るための罰です。もちろん、我々はモデルがフィットアンダーとオーバーフィッティングとの間のバランスを達成することを可能にするために罰の強度を決定する必要があります。

  • 長所:理解と線形回帰の解釈は非常に直感的であり、また正則を通じて、オーバーフィッティングのリスクを軽減します。さらに、線形モデルは確率的勾配降下更新モデル右体重、新しいデータを使用して簡単です。

  • 短所:線形回帰変数は、パフォーマンスの低下の時間との間の非直線的な関係です。そして、また、より複雑なパターンを取り込む、または多項式は非常に困難であると多くの時間を必要とする正確な相互作用の用語を追加するのに十分な柔軟性ではありません。

  • Pythonの  実現します。http://scikit-learn.org/stable/modules/linear_model.html 

  • R達成します。https://cran.r-project.org/web/packages/glmnet/index.html 

 

3.2回帰ツリー(統合的アプローチ)

データの階層的なセットを学習することによって達成される回帰ツリーは(決定木)セグメンテーション基準を繰り返し、異なる分岐に分割され、各時間情報を分離し、利得を最大化することです。この回帰木分岐構造は、非直線的な関係を学ぶのが自然であるように。

このようなツリーを高めるランダムフォレスト(RF)または勾配(GBM)などの統合プロセスは、独立したトレーニングの木の数の組み合わせです。このアルゴリズムの主なアイデアは、複数の弱学習アルゴリズムを組み合わせて、強力な学習アルゴリズムになることですが、特にここでは展開されません。実際には存在し、通常は簡単に優れたRF性能であり、GBMのパラメータを調整することがより困難であるが、通常は木の性能限界高める高い勾配を有します。

  • 利点は:決定木は、非直線的な関係を学ぶことができ、外れ値も強い堅牢性を持っています。統合されたが、実際には学習、パフォーマンスは非常に良いですが、それは多くの場合、多くの古典的な(非勝った綿密な研究)機械学習の競争を。

  • 短所:拘束されていない、それはオーバーフィッティング単一のツリーに簡単で、単一のツリーは、枝(無剪定)として残り、トレーニングデータまでそれを覚えています。統合されたアプローチは、この欠点の影響を弱めることができます。

  • ランダムフォレストの  パイソン  実現します。http://scikit-learn.org/stable/modules/ensemble.html#random-forests

  • ランダムフォレストRを達成します。https://cran.r-project.org/web/packages/randomForest/index.html

  • 木のPython実装を後押しグラデーションます。http://scikit-learn.org/stable/modules/ensemble.html#classification

  • Rは、木の勾配を後押し実現します。https://cran.r-project.org/web/packages/gbm/index.html

 

3.3深さの調査

ディープ学習は、多層ニューラルネットワークの非常に複雑なパターンを学習することを意味します。入力層と出力層との間に使用されるアルゴリズムは、困難である隠れ層モデルの中間データの特徴付けは、一部の他のアルゴリズムを学習します。

ディープ学習アルゴリズムは、高次元のデータに学ぶことができるように、これらのメカニズムは、など、そこに、このようなコンボリューションなど、いくつかの他の重要なメカニズムであり、かつドロップアウト。それが推定されるパラメータのより大きな大きさを持っているのでしかし、他の深い学習アルゴリズムに比べては、より多くのデータを必要とします。

  • 長所:深い学習のような技術の特定の領域で最も先進的であるコンピュータビジョン音声認識ようにと。奥行き画像、音声やテキストデータなど優れた性能、およびバックプロパゲーションアルゴリズムは、モデルパラメータを更新し、新しいデータのために使用することも簡単なアルゴリズムのニューラルネットワーク。そのアーキテクチャ(構造の数及びレベルIE)は問題と隠れ層の多様に適合させることができるまた、アルゴリズムは、プロジェクトの特性に依存して減少させます。

  • 短所:それは大量のデータを必要とするため、深い学習アルゴリズムは、一般的に汎用アルゴリズムとしては適していません。実際には、深い学習がうまくパフォーマンスを統合していない、古典的な機械学習方法に通常です。また、計算量が多いので、これはトレーニング時間を短縮するために、アシスタントのトレーニングの詳細経験者(すなわちセットアーキテクチャと超パラメータ)が必要です。

  • Pythonのリソースします。https://keras.io/

  • Rリソース:のhttp://mxnet.io/ 

 

3.4最近傍アルゴリズム

最近傍アルゴリズムは、それが各トレーニングサンプルの観察結果を保持する必要があることを意味し、「インスタンスに基づいて」されています。新しいサンプルの値を予測する最近傍アルゴリズムは、最も類似した学習サンプルを検索して観察されます。

このアルゴリズムはメモリ集約的であり、治療効果の高次元データは非常に良好ではなく、また、類似性を測定し、計算する効率的な距離関数を必要とします。実際には、実質上正則回帰木や統合プロセスの使用が最良の選択です。

おすすめ

転載: blog.csdn.net/ningjiebing/article/details/90600973