実験的なクラス「データマイニングの概要」 - 実験4、データマイニングKNN、ナイーブベイズ

実験4、データマイニングKNN、ナイーブベイズ

実験の最初に、目的

KNNの1.原則把握

2.ナイーブベイズの原則を把握します

3.使用することを学ぶとNavieベイズKNN分類問題を解決します

第二に、実験ツール

1.アナコンダ

2. sklearn

第三に、実験的な導入

1. KNN

KNN(K-最近傍)仕組み:我々は関係を、対応する各サンプルセットデータのカテゴリを知っていることを、ラベルが存在しているにもトレーニングサンプルセットとして知られているサンプルデータセット、および各データサンプルセットがあります。データなしタグを入力した後、データは、それぞれの新しいデータサンプル濃度の特徴に対応する、最も類似する特徴データサンプルセット(最近傍)クラスラベルを抽出します。一般的に言って、我々は唯一の最も類似したデータのk前に設定サンプルデータを選択し、これはk最近傍アルゴリズム、元のkは、通常、kは20以上の整数ではありません。最後に、新しいデータの分類として、外観が最も類似分類されたデータkの最大数を選択します。

説明:KNNトレーニングプロセスが示されていない、それは「怠惰な学習」を代表している、それだけでトレーニング段階でダウンしたデータを保存し、トレーニング時間のコストは0であり、その処理のために試験サンプルを受け取った後。

2. Navieベイズ

コア内の単純ベイズ分類器は、ベイズルールで、彼は次の式で表されます。

P(C | X)= \ FRAC {P(X | c)はP(C)}、{P(X)} P C | X = P X P X | C 、P C

機械学習では、ベイズの定理に基づくナイーブベイズ分類器は、各モデルの特長(機能)のための手段はナイーブ(ナイーブ)、単純な確率的分類、強い独立性の仮定を持っているであり、機能の間には相関関係は考慮に含まれません。

単純ベイズ分類器は、より一般的にメソッドを使用しているスパムのテキスト分類を識別するために、スパムの分類、通常のテキスト機能の比較的よく知られたアプリケーションです。確率を計算するためにベイズの定理によってメッセージを分類するために、次にスパムおよび非スパムとの間の相関関係を得るために、トークン(メッセージにおける通常の単語)を選択することにより、単純ベイズ分類器。

第四に、実験の内容

1. KNN分類アイリスデータを使用。

次のように(1)メソッド呼び出しのデータがあります。

from sklearn.datasets import load_iris iris = load_iris()# 从sklearn 数据集中获取鸢尾花数据。

image.png
(2)データKNN分類器

最初のインポートアイリスデータセット

image.png

入手したデータパーティショニング

image.png

文のトレーニングと評価モデル

image.png

サンプルテストを実施

image.png

アイリスデータモデリングNavieベイズの2.

image.png
応答の予測値の各クラス確率値印で出力テストサンプルは、
指定されたタグに基づいて、試験サンプルスコアマップ(精度)に戻ります。
image.png

3.あなた自身のKNNプログラム(推奨Python言語)を書き込み、アイリスデータの分類、分類sklearnを使用しないでください。

4.(オプション)分類sklearnを使用していない、私が書いたNavieベイズプログラム(推奨Python言語)、およびアイリスデータの分類。

5回の実験要約(書き込み収穫の問題が発生したこの実験、など)

自己学習における実験はsklearn KNeighborsClassifier GaussianNBモデリングおよび分類を検討しました。トレーニングとテストのモデルを実現するために、パッケージのメソッドを呼び出します。
しかし、十分ではありません、Python言語が不慣れな習得されたKNN理解は、KNNアイリス分類のための独自の手順書を達成するために失敗しました、私たちは学習を強化する必要があります!

おすすめ

転載: www.cnblogs.com/wonker/p/11062717.html