ビッグデータモデリングの8つの法則を知っている必要があります

データマイニングは、データからビジネス・知識発見の使用、プロセス分析と知識(またはモード)の解釈であり、この知識は、新しい知識の天然または人工の再作成の形です。人々が大挙してそのようにしたので、同時に、この新しい知識は、価値の多くをもたらすことができます。

データマイニングの現在のフォームは、実際のフィールドでは、1990年代に生まれた、それは鉱山開発支援プラットフォームの下で、市販の統合データ解析アルゴリズムに適した形態です。おそらく、練習ではなく、理論からのデータマイニングのために、それは、そのプロセスの理解に顕著ではありません。1990年代後半、CRISP-DMの開発は、データマイニングの専門家のより多くの成功した使用を可能とフォローして、データマイニングプロセスの標準化プロセスとなっています。

CRISP-DMは、データマイニング、データマイニングを実装する方法を導くことができるが、それはそうか、なぜするのが適切であるかを説明していませんが。この記事では、私は私の提案9つの基準やデータマイニング(そのほとんどは良く実務者に知られている)「法」およびその他のよく知られている説明の別の番号を説明します。理論的には、データマイニングプロセスを解釈するために(今説明)を開始します。

私の目的は、CRISP-DMをコメントすることはありませんが、CRISP-DMデータマイニングの理解のための概念の多くは非常に重要である、この記事では、CRISP-DMの一般的な用語にも依存します。CRISP-DMにのみ、このプロセスの開始で説明されています。

まず、法律の目標:目標は、すべてのビジネスデータ・ソリューションのソースです。

これは、データマイニングのテーマを定義しています。ビジネス目標を達成するために、ビジネス上の問題や産業を解決するためのデータマイニングに焦点を当てます。データマイニングは、主に技術ではなく、プロセスは、それがコアビジネスの目的です。いいえビジネス目標ません、(明確かどうかに関係なく、このような文の)なしデータマイニング。したがって、この基準は言うことができます。データマイニングは、ビジネス・プロセスです。

第二に、法律の知識:ビジネス知識は、データマイニングプロセスの各段階のコアがあります。

これは、データマイニングプロセスの重要な特徴を定義します。簡単な解釈のCRISP-DM一種のビジネス知識だけで、それはデータマイニングプロセスの重要な属性を欠場することを開始し、データマイニングプロセスの結果の最終目的地の役割と実装を定義されていることである、すなわちビジネス知識は、すべてのステップの中核です。

理解を容易にするために、私が説明するためにCRISP-DMの段階を使用します。

ビジネスの理解がビジネスの知識に基づいている必要があり、データマイニングの目標は、(このマッピングは、データや知識データマイニングの知識に基づいています)ビジネス目標をマッピングすることでなければなりません。

ビジネス上の問題を理解するために、ビジネスの知識に関連付けられたデータを理解するためにデータを使用し、そしてそれらがどのように関連しています。

データ前処理は、データ・トラフィックをシェーピングするための知識を使用することで、そのような交通問題及び解答を提示することができる(より詳細なセクションIII - 調製法)。

モデルは、それらの間の相関関係であるビジネスを理解し、特性モデルとビジネス目標を説明しながら、データ・マイニング・アルゴリズムを使用して予測モデルを作成することです。

理解のためのビジネスモデルの影響を評価します。

実施形態は、データマイニング、ビジネス・プロセスの結果に適用されます。

要するに、何のビジネス知識がない、データマイニングプロセスの各ステップには「純粋に技術的な」ステップが存在しない、無効です。ビジネスの知識は、プロセスの歩留まり有益な結果を導く、およびそれらの有益な結果が認識されるようになります。データマイニングは、反復プロセスで、知識は結果の継続的な改善を推進、中核事業です。

この背後にある理由は、「パフォーマンスギャップ」(代表の割れ目)と(データ・マイニングによって発生点1990でアラン・モンゴメリー)説明することができます。モンゴメリーはビジネスの現実に関連し、そのデータマイニングの目標を指摘したが、データは唯一の現実の一部を表したデータと現実の世界がのギャップ(または「ギャップ」)があります。このギャップを埋めるために、データマイニング、ビジネス知識の過程では、関係なく、データで見つかったものだけにその重要性を示すために説明するために、ビジネスの知識を使用して、欠落したデータは、ビジネス知識によって相殺されてはなりません。コアビジネスの知識は、データマイニングプロセスのあらゆる段階の原因である理由でこの不足を補償するための唯一のビジネスの知識。

第三に、準備態勢の法則:他のプロセスを前処理データは、データマイニングよりも重要です。

これは、最も要求の厳しいもので、データマイニング、データマイニングプロジェクトの有名な格言は、データ収集と前処理です。非公式の見積もり、プロジェクトを取るためにその時間は50%-80%です。最も簡単な説明は、多くの場合、データ取得、データ・クレンジング、データ変換、各パートのデータ前処理ワークロードのこの「問題」を緩和するためにオートメーションを使用して、「データは困難である」のように要約することができます。自動化が有益であるが、サポーターは、この技術は、ワークロード・データの前処理工程の多くを減らすことができると信じているが、それはまた、誤解を招くデータの前処理、データマイニングプロセスである必要が原因です。

オブジェクトデータはフォーマットされたデータ(例えば、データマイニングアルゴリズムなど)が容易に使用するような分析にデータマイニング問題を前処理されます。データ(クリーンアップを含め、最大値と最小値の変換、成長など)の変化の変化の任意の形式は、問題空間を意味するので、この解析は探索的でなければなりません。データ鉱山労働者が簡単にそれが簡単に解析方法に適したものを見つけるためになって、問題空間を操作することができるようにこれは、データの前処理するので重要であり、データマイニングプロセスにおけるこのような大規模なワークロードの所持。

問題空間を「形」には二つの方法があります。最初の方法は、例えば、ほとんどのデータマイニングアルゴリズムは、サンプルが記録され、単一のデータテーブルの形式を必要とする、分析することができ、完全にフォーマットされたデータにデータを変換することです。データ鉱山労働者は、アルゴリズムのニーズをどのような形式のデータの種類を知っているので、データを適切な形式に変換することができます。第二の方法は、ビジネス上の問題に関する詳細な情報を含めることができます例えば、一部の地域では、データマイニングの問題のいくつかは、データマイニングは、ビジネスの知識とデータ知識によって知ることができるデータを作成することです。これらの分野での知識を通じ、データマイニングは、スペースを操作して、問題に適した技術的な解決策を見つけることが容易であるかもしれません。

そのため、データの前処理から業務知識、データ、知識、データマイニングの知識は基本的に、より便利になります。これらのデータの前処理の側面と簡単に自動化を実現することができません。

この法律は、まだワークロード、データマイニングプロセスの半分以上を占め、また、データ収集を通じて、など、クリーニングブレンドが、データウェアハウスを作成するために、つまり、疑いの現象を説明するが、それでも重要なデータの前処理です。また、CRISP-DMのような有用な反復プロセスモデル、必要な更なるデータの前処理を作成、さらにメインデータ前処理段階の後、示されました。

データマイニングソリューションが必要であるを探すためにテストを説明する5つの要因があります。

データマイニングプロジェクトの関心の範囲(ドメイン)で定義されたビジネス目標は、データマイニングの目標は、これを反映します。

このドメイン内のビジネス関連のデータオブジェクトとそれに対応するターゲット・データ・マイニング・データは、掘削中に生成されます。

プロセスは、ルールの制約の影響を受け、これらのプロセスによって生成されたデータは、これらの規則を反映しています。

これらのプロセスでは、データ・マイニング・ルールオブジェクトが、このドメインTECHNICALモード(データマイニングアルゴリズム)によって開示されており、知識発見サービスを組み合わせたアルゴリズムの結果を説明することができます。

データマイニングは、このフィールドのデータを生成する必要がある、パターンに含まれるデータは、必然的にこれらの規則によって制限されます。

ここでは、データマイニングでビジネス目標を変更し、その最後の点を強調し、CRISP-DMはほのめかしたが、多くの場合、容易に知覚することはできません。広く知らCRISP-DMは、ステップの「滝」プロセスの次の次の処理ステップではありません。実際には、どこかのプロジェクトでは、同じビジネスの理解はまた、任意の段階で存在していてもよい、任意のCRISP-DMのステップを行うことができます。目標は、単に全体のプロセスを通る与えられた開始、のためのビジネスではありません。これは、データマイニングプロジェクトのいくつかを説明することがあり、彼らがビジネスの目標は、静的に与えられていない、データマイニングの結果である知っている、明確なビジネス目標の不存在下で始まりました。

ウォルパートの「ノーフリーランチ」理論は、他の可能性のある問題(データセット)は、状態の平均値を表示され(例えば、特定のアルゴリズムのような)状態より公平な優れた機械学習の分野に応用されています。我々は、すべての可能な問題を考慮すれば、他のサブセットは不利であるサブセットにアルゴリズム(又はバイアス)が、有益であるように、その溶液が均一に分散されているからです。印象的な類似性を持つことが知られているこのデータ鉱山労働者は、すべての問題のためのアルゴリズムではありません。しかし、問題は、データマイニングにより対処またはデータセットはランダムではありません、また均等にすべての可能な質問に分配され、彼らは偏ったサンプルを表し、なぜNFLの結論を適用する?答えは上記の要因に関し、 :最初の問題空間が不明、複数の問題であり、各スペースは、データマイニングの目標に関連している可能性があり、問題空間は、データの前処理によって操作することができ、モデルは、技術評価、ビジネス上の問題自体は変更される場合がありますすることはできません。これらの理由から、データマイニング、データマイニング問題空間に配備プロセスとプロセスでは、常に、このような制約条件の下で、ランダム選択アルゴリズムのシミュレーションデータセットが有効であることを使用して、変更されています。データマイニングについて懸念している:なしフリーランチはありません。

これは、一般的に、データマイニングプロセスを説明します。ただし、条件付き特定の状況では、そのようなビジネス目標は安定しており、事前に安定化されたデータ、アルゴリズムまたはアルゴリズムの許容される組み合わせは、この問題を解決することができます。これらのケースでは、データマイニングプロセスの一般的なステップが削減されます。この状況は安定して連続している場合は、データ鉱夫の昼食は自由、または少なくとも比較的安価です。データのビジネスの理解(第二法則)と問題の理解(第八法)が変更されるため、このような安定性は、一時的なものです。

第四に、法律モード(デビッド法):データ・パターンの総含有量。

この規則は、最初のデビッド・ワトキンスによって提案されました。パターンは、ビジネス上の問題がデータに存在しない解決ので、我々は、鉱業プロジェクトが失敗するいくつかのデータを期待するかもしれないが、そのデータマイニングの経験は関係ありません。

所望のパターンのいくつかを見つけることができませんが、他の有用なものの数を見つけることができる場合でも、ように(データ・セットで興味深い何かが常にビジネス関連になります見つける:上記の博覧会はすでにので、これは、言及されていますこのデータマイニングの経験)が関連している、ビジネスの専門家が予想されるパターンが、そうでない場合は、データ・マイニング・プロジェクトが行われていない、存在しない限り、ビジネスの専門家は通常、右ので、それは、驚いてはいけません。

しかし、ワトキンスは、よりシンプルで簡単なビューを提案した:「常にデータモードが含まれています。」このデータ鉱夫が前の博覧会より一貫性のある体験します。これらのパターンは有益であることをこのビューは、後にデータマイニングプロジェクトの顧客との関係に基づいて、ワトキンス後に改正された、将来の顧客で、以前の動作が常に関連している行動のようなパターンが常にある、明確な法律の(顧客関係管理・ワトキンス)。しかし、経験的データ鉱夫が顧客関係管理に限定されるものではなく、データマイニングの問題は、どのモード(ワトキンス普遍的法則)が存在します。

次のようにワトキンス普遍的法則を説明します:

データマイニングプロジェクトの関心の範囲(ドメイン)で定義されたビジネス目標は、データマイニングの目標は、これを反映します。

このドメイン内のビジネス関連のデータオブジェクトとそれに対応するターゲット・データ・マイニング・データは、掘削中に生成されます。

プロセスは、ルールの制約の影響を受け、これらのプロセスによって生成されたデータは、これらの規則を反映しています。

これらのプロセスでは、データ・マイニング・ルールオブジェクトが、このドメインTECHNICALモード(データマイニングアルゴリズム)によって開示されており、知識発見サービスを組み合わせたアルゴリズムの結果を説明することができます。

データマイニングは、このフィールドのデータを生成する必要がある、パターンに含まれるデータは、必然的にこれらの規則によって制限されます。

データは必然的過程で副産物などを生産するため、データ内のパターンが、常にある。この見解をまとめました。モデルを調べるために、から(あなたはすでにそれを知っている)プロセス - は、ビジネス知識を開始します。

知識発見ビジネスモデルの使用は反復プロセスであり、これらのパターンはまた、ビジネスの知識が主な要因であるが、パターンを説明し、ビジネスの知識に貢献します。この反復プロセスでは、データ・マイニング・アルゴリズムは、単純に隠れたパターンとビジネスの知識を接続します。

この解釈が正しい場合は、ダビデの法則は完全に汎用的です。関連するデータ、または各ドメインの各データには、マイニングモデルの問題が常にあるという保証はありませんない限り。

第五に、法律インサイト:データマイニングは、ビジネスの認知度を高めるために。

?どのようにデータマイニングは、コアデータマイニングの法律の密接な洞察を生成することである:なぜデータマイニングは、ビジネス・プロセスではなく、技術的なプロセスである必要があります。ビジネスの問題は、人ではなく、解決するアルゴリズムによって引き起こされます。問題、問題のドメインからのビジネス目標のモデルを達成するために、すなわち必要性の解決策を見つけるためにデータ鉱山労働者とビジネスの専門家。データマイニングは、完全または部分的な認知プロセスに貢献します。データマイニングアルゴリズム開示されたモードが通常理解することができる通常の方法で、ヒトではありません。これらのアルゴリズムの組み合わせとデータマイニングプロセスの正常な人間の知覚は、自然の中で速いです。データマイニングの過程では、データマイニングの問題がソルバーのアルゴリズムによって生成された結果、及び事業の統一的理解を解釈するので、これはビジネスプロセスです。

これは、AIの最初の実用的な結果は、インテリジェントなマシン初期の人工知能の分野では「知的なアンプ」の概念に類似していないが、ツールが有効を得るために、人間のユーザを向上させることができ、「スマートアンプ」と呼ばれ、能力情報。データマイニングは、彼らだけでは完了できないというビジネス上の問題を解決するためにビジネスの専門家を支援するために類似した「スマートアンプ」を提供します。

要するに、データ・マイニング・アルゴリズムは、モードを超越する人間の能力を探索するための通常の方法を提供するために、データマイニングプロセスは、データ鉱山労働者とビジネスの専門家、ビジネス・プロセスと、それぞれの問題に統合され、この機能ができます。

第六に、法律を予想:情報の一般化により予測しました。

それは、私たちはしばしば言う「予測モデル」とあり、何を行うことができ、データマイニングモデルの許容可能な記述となっている「予測」、「予測分析。」多くの一般的なデータ・マイニング・モデルは、多くの場合(またはどのように可能性の可能な結果を​​説明するために)「最も可能性の高い結果を予測」を使用するためです。この方法は、分類および回帰モデルの一般的なアプリケーションです。

しかし、そのようなクラスタリングとの関連モデルとしてデータマイニングモデルの他のタイプは、また、「予測」機能があります。これは、用語のかなり曖昧な意味です。クラスタリングモデルは、個人がどのグループ、アソシエーションモデルは、「予測」以上の特性の既知の基本的な特性に基づくものとして説明されるかもしれない属する「予測」として記載されています。

同様に、我々はまた、アプリケーションが別のテーマで用語を「予測」を分析することができます分類モデルは、顧客の行動を予測すると言うことができる - それは、より正確に予測し、すべてではない場合は、いくつかのターゲット顧客の行動を決定することができ、個々の行動はの「予測」の結果と一致している対象としています。不正検出モデルが投影トランザクションのすべてではないが、詐欺を持っている場合でも、高リスクで個々の取引かどうかを予測すると言うことができます。

「予測」は、データマイニング、いわゆる「予測分析」の結果は、一般的な用語として使用されている使用広義の用語であり、そして広くビジネスソリューションで使用されてきました。しかし、我々は、これは毎日が言った、「予報」ではないことを認識すべきである、我々は、特定の個人や特定の不正行為の調査結果の挙動を予測するために期待することはできません。

何、それから、「予測」の意味である?分類、回帰、クラスタリング、アソシエーションアルゴリズムだけでなく、彼らは一般的な統合モデルに持っているか?その答えは、モデルは新しい方法のサンプルに適用される予測され、「スコア」です。モデル推定値またはスコアを生成し、サンプル中のこの新たな情報の一部である;および誘導のもとにまとめ、サンプルが取得した情報を使用することによって改善することができ、モードがアルゴリズムおよびモデルを具現化することが見出されています。それだけで統計的に有意な、この新しい情報は「与えられた」意味のある「データ」ではないことは注目に値します。

第七に、値の法則:データマイニング結果の値は、安定性やモデルの予測の精度に依存しません。

精度と安定性は、二つの一般的予測モデルの尺度を使用しています。精度が占有正しい予測の割合であり、安定性は、データモデルの変更、同じ口径を予測するために使用されるデータを作成する際に、予測がはるかに(またはほとんど)変化することを意味します。中心的な役割のデータマイニング予測概念の観点では、精度と安定性は、多くの場合、予測モデルは、その結果の値の大きさを決めると考えられ、そうではありません。

二つの方法で予測モデルの価値を反映:1の結果を改善したり、他のモデルの振る舞いは政策の変更に意見(または新しい知識)リードを送達することが可能である影響を与えるために予測モデルを使用することです。

後者の場合は、新しい知識の移転のいずれかのリンク値と精度がそれほど近くない、モデルの予測力のいくつかは、私たちが真であることが判明し、そのモデルを信じさせるために必要があるかもしれません。しかし、高精度で完全に不透明の予測や複雑なモデルを理解することは困難ですが、知識移転はそう、洞察力はないが、低精度の単純なモデルは、より多くの有益な洞察を伝えることができます。

精度と値の間の分離が改善行動の場合は明らかではありませんが、著名な問題は言い換えれば「正しいことのために、または正当な理由のための予測モデル?」、モデルとその値であり、予測精度、事業上の問題から派生しているよう。例えば、顧客の解約モデルは予測の高精度を必要とするかもしれない、それはビジネス上の指導のために効果的ではないであろう。顧客の解約モデルの高精度が古い顧客を維持、効果的な指導を提供することができるが、それは最低限の顧客ベースの利益の一部のみであることに反して。あなたがビジネス上の問題に適合しない場合は、高精度モデルの価値を向上させていません。

同じことが、安定性は、予測モデルの興味深い尺度であるが、安定性は、ビジネスモデルを置き換えることはできません、安定性の真のモデルであるだけでなく、他の技術をビジネス上の問題を理解したり、解決する能力を提供します。

要するに、予測モデルの値は、テクニカル指標によって決定されません。理解し、ビジネスに悪影響を与えると、モデル内のビジネス上の問題に適応すべきでないデータマイニングの場合には予​​測精度、モデルと安定性の他の技術的手段をご覧ください。

第八、法律の変化:原因ビジネスの変化へのすべてのモード。

データマイニングの発見モードは常に同じではありません。データマイニングの多くのアプリケーションではよく知られているが、この自然の普遍性は広く認識されていませんでした。

マーケティングとCRMの観点におけるデータマイニングの適用は、時間と変更にわたり、顧客の行動パターンを理解しやすいです。行動の変化、市場の変化、競争と全体的な経済状況の変化の変化は、予測モデルは、定期的に更新する必要があり、彼らは正確に予測できない場合、これらの変更のため廃止されます。

犯罪者が先に詐欺の保つために彼らの動作を変更するため、環境の変化が、詐欺を変えていると同じことが、データマイニングモデルと不正リスクモデルの適用においても同様です。不正検出アプリケーションは、ちょうど昔のように、詐欺などの使い慣れたが、詐欺の新しい、未知のタイプを扱うことができるように設計されなければなりません。

?おそらく、驚くほど、答えは同じであってもであるデータマイニングの特定の種類のパターンの発見は、時間の経過とともに変化していないと考えることができる、そのようなデータマイニングなどの科学のアプリケーションでは、我々は一般的な規則認められませんこれらのモードも変更されることが期待されます。これらのモデルは単純なルールではないという理由で、この世界には存在しますが、応答データ - これらのルールは、いくつかの分野で本当に静的であることがあります。

ただし、データパターンマイニングの発見は、認知プロセスの一部であり、データマイニングについて説明オブザーバーとビジネスの専門家の世界や認知データ間で確立動的なプロセスです。持続的な発展と成長の我々の知識なので、私たちはパターンが変更されます期待しています。これは、同様のデータ明日の表面に見えるが、それはモード(も微妙に)異なる目的、異なる意味の異なるセットがあり、原因運転操作への知識の分析を、それがビジネス知識の変化に伴って変化します。これらの理由から、パターンが異なることになります。

彼らは世界の変化を反映するだけでなく、私たちの変更の認識を反映しているため、短いでは、すべてのモードだけではなく、変更されます。

追伸:

この8つの法律は、単にデータマイニングに関する真の知識です。この8つの法則は、ほとんどのデータ鉱山労働者として知られているが、いくつかのなじみのない(例えば、第四、第五、第六)が依然として存在します。ほとんどの新しいアイデアを説明され、これら8に関連する法律が、その背後にある理由は、データマイニングのよく知られたプロセスを説明しようとしました。

なぜ我々はそれを使用したデータマイニングプロセスの形を気にしなければならないのはなぜ?これらの単純な需要の知識と理解に加えて、これらの問題を探求する本当の理由があります。

データマイニングプロセスための技術の開発の現在の形で存在する - 機械学習アルゴリズムの人気と他の技術は、これらのアルゴリズムの開発のための包括的なプラットフォームを統合し、受け入れることがビジネスユーザーが使いやすいようにします。我々は、技術の変化やデータマイニングプロセスの変化による期待できますか?それは最終的に変更されますが、我々は、データマイニングの形成過程の理由を理解していれば、その後、私たちは技術を変更することができ、変更することはできません識別することができます。

そのような枠組みの中で展開されたビジネス・ルールを統合することにより、自動化されたデータの前処理、モデルと予測モデルの再構築などの予測分析の分野で革新的な役割、いくつかの技術開発。データマイニングとその説明の九法:技術の開発は、データマイニングプロセスの性質を変更しません。9法令及びこれらのアイデアのさらなる発展これは、外部のデータ鉱夫の教育的価値に加えて、任意のデータマイニング需要革命的な変化の将来の進路を決定するために使用されるべきです。

高度の記事を読んでお勧めします

ビッグデータのエンジニアは、7の概念を理解する必要があります

クラウドコンピューティングの未来とビッグデータファイブ動向

すぐに大規模なデータの独自の知識を構築する方法

 

おすすめ

転載: blog.csdn.net/sdddddddddddg/article/details/91471860
おすすめ