ビッグデータ コース K10 - Spark の Vector_Space_Model アルゴリズム

記事著者の電子メール: [email protected] 住所: 広東省恵州市

 ▲ この章のプログラム

⚪ Master Spark のベクトル空間モデル アルゴリズム。

⚪ Spark のベクトル間の角度の余弦をマスターします。

1. ベクトル空間モデル ベクトル空間モデルのアルゴリズム

1。概要

ベクトル空間モデル (VSM: Vector Space Model) は、1970 年代に Salton らによって提案され、テキスト検索システムで成功を収めました。

VSM はシンプルな概念を持ち、テキスト コンテンツのベクトル空間でのベクトル演算への処理を簡素化し、意味的類似性を空間的類似性で表現するため、直観的で理解しやすいものです。文書が文書空間内でベクトルとして表現される場合、ベクトル間の類似度を計算することによって文書間の類似性を測定できます。テキスト処理で最も一般的に使用される類似性の尺度はコサイン距離です。

M 個の順序付けされていない特徴項目 ti、語根/単語/フレーズ/その他の文書 dj は特徴項目ベクトル (a1j, a2j,..., aMj) で表すことができます。重み計算、N 個の学習文書 AM*N= (aij) 文書 類似性比較

ベクトル空間モデル (またはフレーズ ベクトル モデル) は、情報のフィルタリング、情報の検索、インデックス付け、および関連性の評価に使用される代数モデルです。

このアルゴリズムはドキュメントのランキングに使用できます。このアルゴリズムを学習するには、次の 3 つの基本が必要です。

1. 転置インデックステーブル。

2. 類似性の概念。

3. TF-IDF アルゴリズム。

前方インデックス:ドキュメント -> 語彙インデックス。例:

1.txt -> こんにちは2; スパーク5; AI1;

2.txt -> ワールド 1; ハドゥープ6;

……

方向性索引 (転置索引) : 語彙 -> 文書索引、例えば:

こんにちは -> 1.txt 2; 3.txt 10;

スパーク -> 1.txt 5; 4.txt 7;

おすすめ

転載: blog.csdn.net/u013955758/article/details/132438313