データマイニングや機械学習

機械学習:

    :人工知能の中核研究分野である、彼は現在のように定義されたコンピュータ・システムのパフォーマンスを向上させるために経験を使用します「経験」についてのデータに基づいており、「経験」の形があり、実際にはコンピュータであるので、機械学習は、データの使用を分析する必要があります。

 

    一般化を改善する(汎化能力)が最も重要な機械学習問題の一つです。要するに、新しい機械学習システムイベントに適応する能力を特徴づけるための汎化能力、強力な汎化能力、イベントを作るために、より正確な予測システム。

    我々は(我々はより良​​い近似モデルを選択した、近似モデルを仮説と呼ばれていると思います)自然の中で機械学習の問題の本格的なモデルに近づいているが、あなたが知っていれば真のモデルは(知ってはならないことは間違いありません実際のモデルは知らないので、なぜ我々は?本当のモデルと直接問題を解決する必要があり機械学習は、それは?)ハハ、右、真の溶液との間のギャップは、我々は仮定し、質問を選択した後、どのくらい、私たちは、ことができないであろうことはできません学びました。たとえば、私たちは宇宙は150億年前のビッグバンで生まれたことを信じて、この仮定は、我々が観察する多くの現象を記述することができますが、それは宇宙の真のモデルともどのくらいの違いの間にありますか?我々は単に知らないので、誰が言うことができないものを最終的には宇宙の真のモデルはい。

    この間の誤差と、問題の真の解決策、と呼ばれるリスク(より厳密に言えば、累積誤差のリスクが呼び出されます)。我々は仮説を選んだ後に(ビューのより直接的なポイントを、我々は後で分類器を得た)、真のエラーは知られていないが、我々はいくつかの量がそれをマスターするために近似することができます使用することができます。最も直感的なアイデアは、分類器のサンプルデータの分類に実際の結果と結果を使用することで表現するとの違いは、(サンプルはすでにデータが注釈されているので、データが正確です)。この違いは、経験的リスクREMP(ワット)と呼ばれています。前のリスクの最小化目標の努力とみなさ機械学習方法での経験が、後に多くの機能を簡単に、サンプルセットに混乱を100%の正確な分類率を達成できることを見出した(分類Shiqueの本当の違いを促進する、いわゆる能力、または貧しい汎化能力)。この時点で、状況は十分に複雑な分類機能を選択することである(そのVC次元が高い)、正確に各サンプルを思い出すことができますが、分類誤り外のすべてのサンプルについてのデータ。バックの経験的リスク最小化原理を見ると、私たちはこの原則は前提が本当に(一貫した専門用語で)仕事の本当の危険性に近いリスクを体験できるようにすることですが、実際にそれに近づくことができる適用することがわかりますか?分類されるテキストの現実の世界についてのサンプル数は、コースのサンプルの誤差の小さな割合を持っていないだけで、このアカウントではバケツの中だけでドロップ、経験的リスク最小化原理、、、本物の割合が大きいという保証があるので答えは、ノーですテキストには、エラーではありません。

統計的学習は、したがって、実際のリスクは2つの部分で構成されなければならないという意味、汎化誤差の範囲の概念を描く導入し、1つの経験的リスクが与えられたのサンプルの分類エラーを表し、2番目は、米国を代表して、自信のリスクでありますどの程度まで未知のテキスト分類に分類器の結果を信頼することができます。明らかに、正確に計算する方法はありません第二部では、我々は唯一の範囲の推定値を与えることができ、また、全体的なエラーがセクタのみで計算することが可能になりますが、正確な値を計算しない(いわゆる汎化誤差範囲、およびと呼ばれることができません汎化誤差)。

第二は、VC次元の分類機能で、明らかに多くのVC次元、2、1とリスクの量についての自信は明らかに多くのサンプル、我々の研究の結果、より多くの可能性が正しい、この時点での自信の小さなリスクを考えると、サンプルの数であります大規模な、より悪い自信リスクの推進が増加しました。

式の一般化誤差限界:

R(W)≤Remp(W)+Ф(N / H)

式:R(w)は本当のリスクである、REMP(W)は、経験的リスクであり、Ф(N / h)は信頼のリスクです。リスクの最小化の経験から、統計的学習を対象とすることは経験的リスクと自信と最小限のリスク、つまり、最低限の構造上のリスクのための検索になります。

 

 

ポジティブな意見の実数精度精度=認識/の数の全ての正のビューとして識別
 のすべての実正ビューのリコールリコール=ポジティブな意見の真数を認識/サンプル数

 

データマイニング:

   「データマイニング」と「知識発見」は、一般的に同じであると考えられています。多くの場面での代替用語です。

    名前などのデータマイニングは意味:大量のデータから有用な知識を発見します。データマイニングは、機械学習アプリケーションとデータベースの相互考えることができます。これは、大量のデータを管理するためのデータベース技術を使用して大量のデータを分析するために、機械学習技術を使用しています。

同様に、「統計情報」として、統計的学習アルゴリズムの多くは、通常のマシンを介してデータマイニングへの効果的なアルゴリズムになるためにさらなる研究が必要です。

    ビューのデータ分析の観点から、データマイニング技術のほとんどは、機械学習技術を適用しているが、我々はそのデータマイニングは、機械学習を応用したものであると信じてすることはできません。従来の機械学習は、研究課題、技術の多くとして大量のデータを扱っていません

大量のデータにこれらの技術のアプリケーションは、その結果は非常に悪いとなります場合、彼らは、中小規模のデータにのみ適しています。そのため、データマイニングはまた、これらの技術の特殊な変換が必要です。

    例えば、「木」、それは良い機械学習技術であり、汎化能力と学習だけでなく、成果が理解できます。伝統的なアプローチは、分析のためにメモリにすべてのデータを読むことですが、どうやらない大量のデータのために、対処することが必要で、この時、

そして、このような効率的な導入などによるデータ構造を、スケジュール。

   例外は、独立した規律として、データマイニングは、彼自身の「ユニークな」ものを持っています。たとえば、「関連解析。」単純にリレーショナル分析から多くのデータを入れてビールを飲むが、非常に奇妙なものの、意味のある団体であるとして、おむつを特定することです。20 20顧客100の顧客がある場合は、購入のビールは、それがのように書くことができ、後におむつ16ビット「おむつ→ビール[サポート= 20%の信頼水準= 80%]」このため、おむつを買います相関ルールの。

ます。https://www.cnblogs.com/GuoJiaSheng/p/3851034.htmlで再現

おすすめ

転載: blog.csdn.net/weixin_34208283/article/details/93614724