ビッグデータ学習ノートを学ぶために0から開始します-37。データを分類および予測する方法は?

開始:いわゆる人工知能とは、数学的統計手法、統計データの法則の使用であり、これらの統計法則を自動データ処理に使用することで、コンピューターはいくつかのインテリジェントな特性を示し、さまざまな数学的統計手法はビッグデータアルゴリズムです。

1.はじめに

データ分類、データマイニング、レコメンデーションエンジン、ビッグデータアルゴリズムの数学的原理、ニューラルネットワークアルゴリズムを中心に、ビッグデータアルゴリズムの「パノラマ」が起動されます

2.データ分類

  • 分類は認知です
  • インターネットの時代になると、人はインターネットにますます多くの情報を残すようになります。コンピュータがビッグデータ技術を使用して分析のためにこのすべての情報を統合すると、理論的には人を完全に分類する、つまり人を完全に理解することができます
  • 履歴データの規則性の統計を通じて、大量のデータが分類され、データ間の関係が発見されるため、新しいデータが到着したときに、コンピューターはこの関係を使用して自動的に分類できます。この分類結果が将来確認される場合は、ビッグデータを使用して予測を行うことです

3.テキスト

3.1 KNN分類アルゴリズム

  • 分類が必要なデータの場合、分類およびラベル付けされたサンプルのセットと比較して、最も近いK個のサンプルを取得します。K個のサンプルが最も属しているカテゴリは、分類が必要なカテゴリです。
    • それに最も近い5つのポイント(つまり、Kは5)を計算します。これらの5つのポイントが最大で属するカテゴリ
  • ニュース分類、製品分類などのさまざまな分類シナリオで使用でき、単純なテキスト認識でも使用できます
    • ニュース分類の場合、事前に一部のニュースに手動でラベルを付け、ニュースカテゴリをマークし、特徴ベクトルを計算できます
    • 分類されていないニュースの場合、特徴ベクトルを計算した後、マークされたすべてのニュースで距離計算が実行されます
    • 次に、KNNアルゴリズムを自動分類に使用します

3.2データ距離

KNNアルゴリズムの鍵は、分類されるデータとサンプルデータの間の距離を比較することです

    • データの固有値を抽出し、固有値に従ってn次元の実数ベクトル空間(この空間は固有空間とも呼ばれます)を形成し、ベクトル間の空間距離を計算します。
    • ユークリッド距離は最も一般的に使用されるデータ計算式ですが、テキストデータとユーザー評価データの機械学習では、より一般的に使用される距離計算方法はコサイン類似度です
    • コサイン類似度の値が1に近いほど、類似度が高く、0に近いほど、差が大きくなります。たとえば
      、2つの記事の特徴値は、記事Aの特性である「ビッグデータ」、「機械学習」、「オタク時間」です。ベクトルは(3、3、3)です。つまり、これら3つの単語の出現数は3です。記事Bの特徴ベクトルは(6、6、6)です。つまり、これらの3つの単語の出現数は6です。特徴ベクトルを見ると、2つのベクトルは大きく異なります。ユークリッド距離計算を使用すると、実際には非常に大きくなりますが、2つの記事は実際には非常に似ていますが、長さが異なります。 。コサイン類似度は実際にはベクトル間の角度の計算であり、ユークリッド距離の公式は空間距離を計算することです。コサインの類似性は、データの類似性により関係しています。たとえば、2人のユーザーが2つの製品を(3、3)と(4、4)と評価した場合、2人のユーザーの2つの製品の好みは類似しています。この場合、コサイン類似度はユークリッド距離よりも妥当です

3.3テキストの固有値

距離を計算するにはデータの特徴ベクトルを知る必要があるため、データの特徴ベクトルを抽出することは機械学習エンジニアにとって重要な仕事です

テキストデータの特徴値は、テキストキーワード、TF-IDFアルゴリズムを抽出することです;特徴値としてTFを使用します

TFは用語の出現頻度(用語の出現頻度)であり、ドキュメントに単語が出現する頻度を意味します。ドキュメントに単語が出現する頻度が高いほど、TF値は高くなります

IDFは逆ドキュメント頻度(Inverse Document Frequency)であり、すべてのドキュメントでこの単語が不足していることを示します。ドキュメント数が少ないほど、IDF値は高くなります。

TFとIDFの製品はTF-IDFです。

たとえば、原子エネルギーに関する技術記事では、「核分裂」、「放射能」、「半減期」という単語がこのドキュメントに頻繁に表示されます。つまり、TFは非常に高くなりますが、すべてのドキュメントでの出現頻度は比較的低く、つまりIDFです。比較的高い。したがって、これらの単語のTF-IDF値は非常に高くなります。このドキュメントのキーワードが抽出された後、キーワードの単語頻度を使用して、上記の原子力に関する記事などの特徴ベクトルを構築できます。 「核分裂」、「放射能」、「半減期」の3語は特徴的な値であり、発生数はそれぞれ12、9、4です。この記事の特徴ベクトルは(12、9、4)であり、前述の空間距離計算式を使用して他のドキュメントまでの距離を計算します。KNNアルゴリズムと組み合わせると、ドキュメントの自動分類を実現できます。

3.4ベイズ分類

ベイズ式は条件付き確率に基づく分類アルゴリズムです

AとBの発生確率がすでにわかっていて、Bの場合のAの発生確率がわかっている場合は、ベイズの公式を使用して、Aの場合のBの発生確率を計算できます。実際、Aの状況、つまり入力データからBの確率、つまりBの可能性を判断し、分類することができます。

大量のデータの統計法則は、物事の分類確率を正確に反映できます

ベイジアン分類の典型的なアプリケーションはスパム分類です。

サンプルメールの統計により、メールに出現する各単語の確率[数学処理エラー] P(Ai)がわかります。また、通常のメールの確率[数学処理エラー] P(B0)とスパムの確率[数学処理エラー] P(B1)、スパム内の各単語の発生確率をカウントすることもできます[演算処理エラー] P(Ai | B1)、次に新しいメールが到着し、メールに表示される単語に従って、 [演算処理エラー] P(B1 | Ai)、つまりこれらの単語が存在する場合にメッセージがスパムである確率を計算し、メッセージがスパムであるかどうかを判断します。

そして、特定の値を超える確率を設定し、それが起こると思われる場合、このデータを分類して予測しました

最初に、元のメールにマークを付ける必要があります。どのメールが通常のメールであり、どのメールがスパムであるかをマークする必要があります。データの注釈が必要なこのタイプの機械学習トレーニングは、教師あり機械学習とも呼ばれます

3.5まとめ

多くのAIは実際には分類アルゴリズムです

たとえば、AI GoアルゴリズムAlphaGoは本質的に分類アルゴリズムです。Goボードには361の交差があります。分類オプションは361あると考えることができます。AlphaGoは、毎回最も勝った出力を持つ分類オプションを選択するだけで済みます。

 

おすすめ

転載: www.cnblogs.com/minimalist/p/12689883.html