データマイニングのトップ10アルゴリズム

分類アルゴリズム:C4.5、ナイーブベイズ、SVM、KNN、Adaboost、CARTL。クラスタリングアルゴリズム:K-Means、EM1。アソシエーション分析:アプリリル。接続分析:PageRank


序文

国際的な権威ある学術組織であるICDM(IEEE International Conference on Data Mining)は、10の古典的なアルゴリズムを選択しました。さまざまな目的に応じて、これらのアルゴリズムを4つのカテゴリに分類できます。


分類アルゴリズム:C4.5、ナイーブベイズ(ナイーブベイズ)、SVM、KNN、Adaboost、CARTL
クラスタリングアルゴリズム:K-Means、EML
関連分析:Aprili
接続分析:PageRank

1つ、C4.5アルゴリズム

C4.5はデシジョンツリーアルゴリズムであり、デシジョンツリーの構築中にブランチを創造的に剪定し、不完全なデータだけでなく連続的な属性も処理できます。これは、決定木分類における画期的なアルゴリズムであると言えます。

2、SVMアルゴリズム

SVMは、中国語ではサポートベクターマシン、英語ではサポートベクターマシン、または略してSVMと呼ばれます。SVMは、トレーニング中に超平面分類モデルを確立します。

3、KNNアルゴリズム

KNNはK最近傍アルゴリズムとも呼ばれ、英語はK最近傍アルゴリズムです。いわゆるK最近傍とは、各サンプルをK最近傍で表すことができることを意味します。サンプル、そのK最近傍がカテゴリAに属する場合、このサンプルもカテゴリAに属します。

4、AdaBoostアルゴリズム

Adaboostは、トレーニング中に共同分類モデルを確立しました。ブーストは英語でブーストを意味するため、Adaboostは分類器を構築するためのブーストアルゴリズムです。これにより、複数の弱い分類器から強い分類器を形成できるため、Adaboostも一般的に使用される分類アルゴリズムです。

5、CARTアルゴリズム

CARTはClassificationand Regression Treesの略で、英語はClassification and RegressionTreesです。2つのツリーを構築します。1つは分類ツリーで、もう1つは回帰ツリーです。C4.5と同様に、これは決定木学習方法です。

6、Aprioriアルゴリズム

Aprioriは、マイニングアソシエーションルールのアルゴリズムであり、頻繁なアイテムセット(頻繁なアイテムセット)を使用してアイテム間の関係を明らかにし、ビジネスマイニングやネットワークセキュリティで広く使用されています。頻繁なアイテムセットとは、一緒に表示されることが多いアイテムのコレクションを指し、相関ルールは、2つのアイテム間に強い関係がある可能性があることを意味します。

7つのK-Meansアルゴリズム

K-Meansアルゴリズムは、クラスタリングアルゴリズムです。オブジェクトをK個のカテゴリに分類したいと思います。このカテゴリのコアである「中心点」が各カテゴリにあると想定します。これで、分類する新しいポイントができました。この時点では、この新しいポイントとK個の中心点の間の距離と、どの中心点がどのカテゴリに近いかを計算するだけで済みます。

8.ナイーブベイズアルゴリズム

単純ベイズモデルは確率論の原理に基づいており、その考え方は次のとおりです。特定の未知のオブジェクトを分類するには、未知のオブジェクトが出現するという条件の下で、各カテゴリの確率を解く必要があります。最大、この未知のオブジェクトがどのカテゴリに属する​​かを考えてください。

9つのEMアルゴリズム

EMアルゴリズムは、最大期待アルゴリズムとも呼ばれ、パラメーターの最尤推定を取得する方法です。原理は次のとおりです。開始状態ではどちらも不明なパラメーターAとパラメーターBを評価し、Aの情報を知っているとBの情報を取得でき、逆にBを知っているとAを取得するとします。最初にAに初期値を与えてBの推定値を取得し、次にBの推定値から始めて、Aの値を再推定することを検討できます。このプロセスは、収束するまで続きます。EMアルゴリズムは、クラスタリングや機械学習の分野でよく使用されます。

10、PageRankアルゴリズム

PageRankは、紙の影響力の計算方法に端を発しています。文学理論を何度も導入すると、紙の影響力が強くなることを意味します。同様に、PageRankは、GoogleによるWebページの重みの計算に創造的に適用されました。ページにリンクされているページが多いほど、ページの「参照」が多くなり、このページがリンクされる頻度が高いほど、そのページは次のようになります。引用数が多いほど。この原則に基づいて、ウェブサイトの重量区分を取得できます。

次に、手順を使用します

1.ライブラリを紹介します

コードは次のとおりです(例):

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.データを読み込みます

コードは次のとおりです(例):

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

ここで使用されるURLネットワークによって要求されたデータ。


総括する

ヒント:記事の概要は次の
とおりですたとえば、上記は本日お話しする内容です。この記事では、パンダの使用法について簡単に紹介します。パンダには、処理を可能にする多数の関数とメソッドが用意されています。データをすばやく便利に。

おすすめ

転載: blog.csdn.net/weixin_43290383/article/details/114284670