テキストの類似性アルゴリズムを比較し、余弦アルゴリズム-LD

  アルゴリズムのコードは、容易に入手できるオンラインツールです。私はそれらをリストしません。私はLDアルゴリズムの欠点の発見があるプロジェクトをやっていました。類似度計算は、テキストの大きい(> 5W)はLDを形で算出されるので、特に低速になります。

LDは、二つの文字列の類似性を測定することができます。彼らの距離は、文字列そのプロセスに文字列を追加、削除、値を変更することです。テキストがなった場合の計算の非常に大きな数を想像することができます 

二つの文字列が20,000文字がある場合は、行列の大きさは、LD 20000 * 20000 * 2 = 800000000Byte = 800メガバイトです。したがって、時間の長い文字列では、アルゴリズムの他、より良いパフォーマンスがあります。

アルゴリズムの余弦コサイン類似度メトリック以下に説明:個体間の類似度を算出します。距離が大きいほど、類似度より小さい。距離が小さいほど、類似度が大き​​くなります。

計算方法:二人の個人の間のサイズ差の尺度として2つのベクトル間の角度の余弦の間のベクトル空間は、余弦が1に近い場合、角度は、余弦が0に近い二つのベクトルより類似していることを示す、0になる傾向があります角度90度の2つのベクトルが類似していないであることを示す傾向にあります。1、ワード2、すべてのワード3、ワードコーディング; 4、単語頻度ベクトルを、5、コサイン類似度は、2つの文を適用する測定。

以下は、個々の比較で、テキストの一部の外にテキストをコピー(この前提を無視しないでください)

 

精度の問題は、個人がより多くの問題を修正するために(コピー)大型章のためのコサイン演算精度を計算するためにLDアルゴリズムに有利にバイアスされて、私が持っていた誤解を願って解決されることがあり

おすすめ

転載: www.cnblogs.com/ybniu/p/12111265.html