データマイニングと予測プロファイルの分類

分類および予測が予測するデータを使用する2つの方法があり、将来の結果を決定するために用いることができます。

分類は離散データオブジェクトのクラス予測のために使用され、予測が必要とされる属​​性値は、不規則離散的です。

予測は、連続データオブジェクトの予測値であり、プロパティ値の予測が必要とされる規則的、連続的です。

例えば、銀行では、貸し手を決定するための情報に基づいて融資申請者は「安全」カテゴリやデータマイニング分類タスクである「リスク」カテゴリです。貸し手への融資額の分析は、データマイニングの予測課題です。

このセクションでは、分類または予測するために使用されるいくつかのアルゴリズムを、一般的に使用される分類および予測方法が導入された説明が、分類するだけでなく、予測するために両方を使用することができるいくつかのアルゴリズム。

分類の基本的な考え方

分類アルゴリズムは、物事と異なるものの知識共通な性質の同じタイプの特性の違いを見つける方法の知識の特性を反映しています。カテゴリー分類モデルは監督トレーニング、およびグループ化して、未知のモデルインスタンスの使用を学習することによって構築されています。カテゴリーの出力属性は順不同、離散的です。

分類技術は多くの分野での用途を有します。現時点では、マーケティングの非常に重要な特徴は、顧客セグメントを強調することです。データマイニング技術を使用して分類、顧客はさまざまなカテゴリに分けることができます。

コールセンターを見つけるために、あなたは頻繁に顧客のコールセンターの設計に顧客を呼び出すことができ、顧客のコールの臨時多数、安定した顧客の通話、他;例えば、顧客が銀行融資のリスク評価のための分類構造モデルによって分類することができます顧客のこれらの異なるタイプの特性は、そのような分類モデルは、ユーザーが顧客の行動の異なるカテゴリの分布特性を把握することができます。

侵入検知およびその他のセキュリティベースの分類技術の分野における他の文献検索や分類のアプリケーションだけでなく、検索エンジン自動テキスト分類技術。

分類は、各Xは、ターゲットにマッピングされるため(Yは別個でなければならない)にY(クラス)の属性属性セットに目的関数f(モデル)を得るために、既存のデータセット(トレーニングセット)の研究によるものです。

分類プロセスは、2段階のプロセスである:最初のステップは、そうでなければ、トレーニングフェーズとして知られている、段階モデル​​を構築することで、第二のステップは、評価段階です。

1)トレーニングフェーズ

トレーニング段階の目的は、クラスの概念やデータ定義済みの分類モデルの設定を記述することです。ステージは、テストセットとして残りの部分が、モデルのトレーニング・セットの確立の一部として中央のデータから既知のデータを選択する必要があります。通常、トレーニングセット、テストセットなどのデータ項目1/3として2/3のデータの既知の濃度からのデータ項目を選択します。

トレーニングデータセットは、データの組のセットで構成されたグループに属する各データ要素は、以前にカテゴリを指定されていると仮定しました。トレーニングフェーズは、与えられたタプルxの写像関数を学習するプロセスとして見ることができる、あなたはマッピング機能によって標識のカテゴリを予測することができます。マッピング関数は、図3に示すように、得られたトレーニングデータセット、モデル(さもなければ知ら分類)によるものです。モデルはそうで分類ルール、決定木、または数式の形で表現することができます。

トレーニングフェーズ分類アルゴリズム
トレーニングステージ1つの分類アルゴリズム

2)評価段階

図に示すように、評価フェーズの間、テストに必要なモデルの確立の第一段階は、分類モデルの予測精度を評価するために、データタプル分類を設定します。

分類器の精度は、試験が正しく分類されたデータセット共有のタプル試験の所与のパーセンテージのための分類子です。許容される分類器の精度場合、データの使用は、未知のカテゴリタグを分類する分類器をタプル。

評価フェーズ分類アルゴリズム
図2の評価フェーズ分類アルゴリズム

予測の基本的な考え方

予測モデルと同様の分類モデルは、xは入力タプルである、マップまたは関数y = f(x)、と見なすことができ、そしてyは連続または順序付けされた値の出力です。分類アルゴリズムが異なる場合、予測アルゴリズムの属性値を予測する必要が連続している、整然とした、分類は、プロパティ値が順不同、離散的で予測することです。

データマイニング予測アルゴリズムおよび分類アルゴリズムのように、それは、2段階のプロセスです。テストデータセットと予測タスクに設定されたトレーニングデータは独立していなければなりません。予測値と実際の評価の既知のy値の間の差による予測の精度。

そして、予測分類との違いは、それは予測またはその一部の空いている未知の値を推定され、分類がクラスラベル付きデータオブジェクトを予測するために使用されています。例えば、明日の終値を予測するため、上海指数は上下にあるあなたが予測可能であるどのくらいの上海指数の明日の終値を予測したい場合は、しかし、分類されています。

52 決定木とナイーブベイズアルゴリズム
53 回帰分析
54 クラスタ分析入門
55 アルゴリズムクラスタリング・K-手段
56 .DBSCANクラスタリングアルゴリズム
57 アソシエーションは、データマイニング解析ルール
58 アプリオリアルゴリズムとFP-ツリーアルゴリズム
59 の大規模なデータ精度のマーケティングに基づく
60 大規模なデータに基づいてパーソナライズされた推薦システム
61 ビッグデータ予測
62. 他のビッグデータアプリケーション
63 業界で適用することができる大規模なデータ
64 金融セクターにおけるビッグデータの応用
65. インターネット業界におけるビッグデータアプリケーション
66 物流業界におけるビッグデータの応用

おすすめ

転載: blog.csdn.net/yuidsd/article/details/92418178