システムは、NLP(XX)を学ぶ - テキストクラスタリング

転送:https://zhuanlan.zhihu.com/p/40991165

1:テキストのクラスタリングとは何ですか

私たちは、クラスタリングの概念についてお話しましょう、クラスタ、またグループ分析として知られている、データマイニングで構成される重要なアイデア、クラスタリング(クラスター)分析はいくつかのモード(パターン)で行われた、通常は、測定モード(測定)ですベクトル、または多次元空間内のポイント。クラスター分析は類似性に基づいており、同じクラスタパターンの割合との間のより多くの類似点が一つのクラスタ内のモード間ではありません。(Baiduの百科事典からのより多く)。

実際には、テキストクラスタリングに移ると、テキストクラスタリングは、それがその後、ポイントとの間の高次元空間の形成がドットを計算するために行くようにするために、最初にすべての私たちは、数学的な情報への自然言語文書をしたい、アプリケーションのテキストの方向にあります距離は、その後のクラスタにクラスタ化された、より最近のものであり、これらのクラスタは、クラスタの心の中心になります。そして、私たちがやっていることは、クラスタ内の距離に十分近い点、および十分クラスタからクラスタようにすることです。

私は最初、それは簡単なことだろうと思った時にタスクは、コメントテキストクラスタリング操作で行われる受信、それはまだいくつかの理由のために良い操作を、発見されない、1はセマンティック事実の一部が繰り返されていることのコメントがあり、これはいくつかにつながりましたカテゴリが使用され、このクラスタリング手法は、他の一方で、多くの場合、正確ではありませんレビューの単語の一部、そしていくつかは、そのような「マイクロチャネル」などの音訳語は、「Vチャネル」およびこれらの単語に変わります単語を置き換えるためにシノニムを使用し、オーバーラップしますクラスタリングはあまりにも私たちのデータに、多くの場合、教師なし学習である。そしてまたので、いくつかの問題があるだろうときに我々が知らない(私のコメントデータは80ワット、どのくらいのクラス、どのようなクラスを持っているに)、我々だけプロファイル係数は、適切な結果を見つけるために、テストを継続することができます。

そして、我々はそのような私たちが使用してK-means法などいくつかの問題が存在する使用するアルゴリズムのいくつか、選択した各クラスタの心はとても結果を得るために、ランダムでは毎回同じではありませんので、クラスタリングアルゴリズムも評価することがより困難ですこれは最も難しい部分の一部です。

2:テキストクラスタリング処理

 

図に示すメイン処理は、実際には、3つの主要部分があります。

、最初の部分、ワープロは、我々は、単一の構成のための英語の単語ので、中国の記事は英語で中国の記事と記事で単語、いくつかの違いがあるようにしたい、そしてそこには必要の言葉はありません、我々中国人は言葉を必要とし、ありますが、いくつかの単語は、次のような、大量に登場しますが、記事の分類構造のため、中国の間ではあまり意味を達成することはありません「」「」「私は、」「」これらの言葉は、彼らにスペースや廃棄物の廃棄物を計算する必要があります時間は、+ 1秒の要因のために、私たちは、最初にすべての私たちは、この言葉が削除される実行するためにストップリストを追加します、ああ、時間を節約する必要があります。

パートII:単語単語単語の後ベクトルに変換

ベクトル単語について、私たちは、そのような言葉モデル、単語のモデル(CBOW)の継続的なバッグやスキップ-gramモデルの一hotm、BOWバッグとWord2vecモデルとしてより多くの人気モデル、のいくつかを持っているこのミッションでは、私はバッグがBOW言葉を使いますモデル、我々はTFIDF行列に変換したい単語に変換される値は、実際にTFIDFは、周波数に応じて、重み付けされた抽出された特徴として見ることができると言葉は、すべてのコーパスで現在の記事に現れる単語登場しています単語、単語はこの記事に表示された回数は、用語がより重要である多くの時間の周波数の重要性を評価、それが記事に出現する回数はすべてたくさんある場合、それはとても重要ないないようです

パートIII:選択クラスタリングアルゴリズム

このアルゴリズムは、我々は2つのアルゴリズムの最大で、K-手段とDBSCANを使用したことをここにあるが、K-手段内部の高次元空間での寸法は、クラスタとクラスタ間の高すぎるので、理由があり、非常に良いようではありません直接クラスタに、この部分は非常に良好ではないと思われる場合の距離は、小さすぎると、あなたは、主成分分析PCAを使用する必要があり、この時間は、一般的な考え方は大体、いくつかの後に最大の高次元のベクトルの分散の方向を取ることを意味しています数学的変換の予約、廃棄された役に立たない一部の有用な部分は、このアプローチはまた、最大の特徴を見つけるために、適切な分類アルゴリズムです。

この部分は、あまりにも多くのピットの後、について書いて良い記事を分離するために持っているようです。

最後にK-手段のための評価アルゴリズムは、我々は距離クラスタはBrich階層的クラスタリングのために評価された使用している、我々は評価するためのプロファイル係数を用いて、最終的に発見され、これは本当に生きているパラメータ調整で、簡単ではありません嘆きました。

最終結果:

赤い点線は、プロファイル係数で、ヒストグラムは柱状アウトライン係数の近傍に多くのように、我々は結果が良い得ると言うことができ、カテゴリです。

おすすめ

転載: blog.csdn.net/App_12062011/article/details/88547960