標準化および正規化(統合)

パート1:

【转】https://blog.csdn.net/weixin_40165004/article/details/89080968

前処理WEKAデータ(A)

高品質マイニング結果を生成するためにあることをマイニングデータの品質が、データの品質を無視して、データ・マイニングのために、我々は、「そうでない場合のみ、唯一のそのような分類、クラスタリング、アソシエーションルールのような実質的なマイニングアルゴリズム、に集中する傾向がありますのごみ出し」でゴミ。重要なステップは、(データ前処理)前処理データであることをデータの品質を確認し、実際の運用では、マイニング・プロセス全体でデータ準備フェーズでは、多くの場合、6-8回まで取ることができます。本稿では、データはいくつかの導入のためのツールWEKA方法を前処理します。

 

ウェカデータは、データのフィルタリングとして知られている前処理、彼らは中にweka.filtersで見つけることができます。フィルタアルゴリズムの特性は、教師(SupervisedFilter)及び教師なし(UnsupervisedFilter)に分けることができます。前者の場合、フィルタの必要性は、クラス属性を設定する属性データセットなどの分布を考慮し、容器の最適な数とサイズを決定するために、後者のクラス属性が存在しなくてもよいです。一方、順にフィルタリングアルゴリズムは、属性ベース(属性)とインスタンス・ベースの(インスタンス)に起因します。この方法は、主に、列の追加や削除など、処理するための属性列に基づいて、メインライン、例えば、追加または削除の行を処理するための方法の一例に基づきます。

データは、フィルタリング、主に次の問題(一般的に)対処します。

データ欠損値、標準化と離散化。

データ処理を行方不明の値:weka.filters.unsupervised.attribute.ReplaceMissingValues。欠損値を置き換えるために、そのMODE(最頻値)との名目上の属性の平均値と欠損値の代わりに数値属性について。

標準化(標準化):クラスweka.filters.unsupervised.attribute.Standardize。データセットの正規化された所定の正規分布のゼロ平均及び単位分散へのすべての属性値の値

正規化(Nomalize):クラスweka.filters.unsupervised.attribute.Normalize。正規化は属性値、属性クラスのすべての値を除いてデータセットを与えられました。区間[0,1]のデフォルト値の結果が、パラメータをズーミング及びパンニングで、我々は、任意の指定区間に数値属性ができます。そのようなものとして:ただし、スケール= 2.0、翻訳= -1.0は、間隔を[-1、+ 1]のプロパティ値を調節することができます。

離散(離散化):クラスweka.filters.supervised.attribute.Discretizeとweka.filters.unsupervised.attribute.Discretize。プロパティは、カテゴリ属性にはいくつかの数値離散データセットのために、離散化の数値教師と教師なしでした。


その2:

【转】https://blog.csdn.net/u014381464/article/details/81101551

正規化:
データベースのための
規制要件を満たすために、関係の正規化は第1正規形(1NF)で最低の要件を満たすためにいくつかの段階に分割され、第二のパラダイム、第三のパラダイム、BCパラダイムと4NF、5NFなど、ノルムは再びより高いレベルでは、条件のより厳しい制約セットが満たされています。

データのための
正規化データの正規化標準正則を含み、それは一般的な用語(としてまとめて標準化であった)です。

それは一定の小間隔内に入る、データ変換のデータの正規化は、データマイニング、データ変換、またはデータフォームの適切な統一されたデータ・マイニング、掘削属性データがスケーリングされるオブジェクトに変換されます、など[-1、1]又は[0,1]

正規化された属性値は、一般的な分類とクラスタリングアルゴリズムを使用し、ニューラルネットワークアルゴリズムは、距離メトリックの間で必要とします。ニューラルネットワークの利用、学習段階のスピードアップ標準化されたトレーニングタプルヘルプスピードのすべてのプロパティの値の尺度としてマイニング伝播アルゴリズムを分類するとき。距離データに基づいて、相違度のための方法は、すべての属性が同じ加重値を有するように正規化することができます。

分数スケーリングの最小値と最大値の正規化、Zスコア正規化および標準化:データの正規化の3つの一般的な方法があります

 

標準化(標準化):
データは、小区間内に収まるように、正規化されたデータは、正または負とすることができるスケールが、絶対値は、一般的に大きすぎないが、一般的にZスコア正規化方法であって、データを正規化:期待標準偏差で割った値を差し引きました。

 

正規化(正規化):

ミニマックス正規化(デジタル信号処理のカテゴリに起因する)0-1のセル間にスケーリング値は、一般的な方法は、最大、最小、標準的な方法であります

 

 


 

パート3

上のMATLAB関数

 

 


その他:

WEKAアルゴリズムのソースコードは、道を取得します。https://blog.csdn.net/renyiniki/article/details/79668870

1.まず、ソースWEKA公式サイトをダウンロードし、二つの方法があり、一つは、インストールファイルをダウンロードしてインストールはインストールディレクトリにWEKA-あるsrc.jarを持つことになり、ある SVNをダウンロードすることにより、ソースの後に解凍、および他のです。  https://svn.cms.waikato.ac.nz/svn/weka/trunk/weka   マシン上で、そのようなSVNなど必要ツール:TortoiseSVNの

2.インポートのMyEclipse

2.1作業ディレクトリを作成します。新しいディレクトリWEKAを作成します。

2.2ソースコードを準備します。ウェカはウェカ-あるsrc.jarを、インストールディレクトリにだけビルドディレクトリに抽出しました。

プロジェクトを作成する2.3。MyEclipseが、ファイル - >新規作成> Javaプロジェクト、プロジェクト名フィルWEKAを開き、既存のソースからプロジェクトを作成して選択し、[次へ]をクリック、[完了]をクリックします。

2.4コンパイルして実行。、ポップアップダイアログボックスを待って、Javaアプリケーションとして実行先ほど作成したプロジェクトを、選択メインクラスを選択し、weka.gui.main(メイン入力が参照する)WEKA。すぐに、インタフェースWEKA。

 

 

 

 

 

 

 

おすすめ

転載: www.cnblogs.com/rinroll/p/11986350.html