7.文書クラスタリング

7.文書クラスタリング

NLPにおける文書クラスタリングまたはクラスタ分析とテキスト分析は、それが教師なしMLの概念と技術の応用で、興味深いエリアです。文書クラスタリング類似文書分類の主な前提は、文書の完全なコーパスから始まり、いくつかのユニークな機能に応じて、属性およびドキュメントの特性が異なるグループにそれらを分割します。文書分類し、文書が分類され、モデルを構築するために予め標識するためにトレーニングデータを必要とします。様々なカテゴリーに分類教師なし文書を使用してML文書クラスタリングアルゴリズム。これらのクラスの特徴は、にし、クラス内の文書間類似文書、他の種類の間で比較され、より密接な関係。

ここでは、このクラスタの完璧な定義は存在しないため、一つの重要な事は、クラス間のいくつかの重複が常にある、クラスタリングは教師なし学習技術であるということです覚えておく必要があります。これらの技術のすべてが数学、ヒューリスティックなアルゴリズムに基づいており、クラスタプロセスの固有の特性のいくつかを生産している、彼らは100%完璧なことはありません。以下のように、クラスタで見つかった技術やメソッドの数、いくつかの人気のクラスタリングアルゴリズムを簡単に説明するがあります。

  • 階層的クラスタリング特性:これらもむしろ独立したオブジェクトよりも、ベクトル空間に関するオブジェクトに同様のオブジェクトに近くなるべきであるという概念に基づいているクラスタモデルベースのクラスタリング手法コネクタとして知られており、すなわち、それらは独立したオブジェクトであり、さらにより。クラスタリングは、距離に基づいて、接続対象物により形成され、ツリーを視覚化するために使用することができます。これらのモデルの出力は、完全な、詳細な階層クラスタリングです。このクラスのモデルが合体し、分割クラスタリングモデルに分かれています。
  • クラスタモデルの重心に基づいて、そのような方法クラスタで構成されたモデルは、すなわち、各クラスタの中心を有し、代表メンバーは、クラスタの代表とすることができ、特定のクラスタと他のポリ有します。フィーチャクラスを区別するために。モデルベースのクラスタリング重心例えばk平均、K-medoidsアルゴリズムとして、アルゴリズムの様々なを含む、そのようなアルゴリズムは、予めクラスタkの数を設定する必要があり、距離メトリックを最小化する(例えば、各データは、重心までの距離を指しそれは)乗。これらのモデルの欠点は、あなたがデータの実際のクラスタ表現を得ることができないので、kの値を指定するには、これは極小値につながる可能性が権利を言及する必要があるということです。
  • クラスタモデルは、分布に基づいて:これらのモデルは、データポイントをクラスタ化する確率分布の概念を使用します。同様の分布が同じグループまたはクラスタにクラスタ化することができると考えオブジェクトです。ガウス混合モデル(ガウス混合モデル、GMM)アルゴリズムは、これらのクラスタを構築することが期待されるなどの利用を最大化します。特長は、属性相関の依存関係もキャプチャするために、これらのモデルを使用することができますが、このタイプのモデルはオーバーフィッティングに簡単です。
  • 密度ベースのクラスタリングモデル:データポイントようなクラスタリングモデルは、より高密度の領域を使用してクラスタ内に収集されたデータポイント密度の高い領域と比較し、生成された、他のデータポイントをランダム疎領域ベクトル空間に表示されてもよいです。これらのまばらなノイズなどの分野、および境界と一緒に米国を隔離します。2つの人気分野におけるアルゴリズムとDBSCANアルゴリズムオプティクスアルゴリズムです。

最近BIRCHとCLARANSアルゴリズムを含む、いくつかの他のクラスタリング・モデルがありました。現在、多くの専門的なクラスタ化されたデータや雑誌がある - クラスタリングは非常に効果的で価値のあるトピックですので。私たちは、3つの異なる主要なクラスタリングアルゴリズムを導入し、より良い理解を容易にするために、実際のデータとそれらを説明します:

  • クラスタリングkは、意味します。
  • 親和性伝播(親和性伝播、AP)クラスタリング。
  • ウォード凝集型階層クラスタリング(ウォードの凝集型階層chustering)。

他のアルゴリズムを導入したよう各アルゴリズムのために、私たちは、その理論的な概念を紹介します。それぞれ、各アルゴリズムの動作原理を説明するためにフィルムおよびフィルム関連の導入上のいくつかの実際のデータに適用されるクラスタリングアルゴリズムを通じてなります。私は、クラスタリング結果が通常より困難可視化することであるため、詳細な統計データのクラスタリングを参照し、検証後の視覚的なクラスタリングアルゴリズムを使用することに注力したいと思いますが、従業員は、多くの場合、このような課題に直面しています。

おすすめ

転載: www.cnblogs.com/dalton/p/11354023.html