2.自動テキスト分類

2.自動テキスト分類

今、テキスト分類の定義と範囲のために理解しています。「テキスト分類システム」への言及は、テキストファイルは、それらが表すクラスまたはカテゴリに分かれて、だけでなく、概念と数学の正式な定義からテキスト分類のためにすることができた場合。少数の人々は、彼らは私たちが話している文書分類システムの一部で、テキストを参照し、各完全なテキスト分類タスクを分類すると仮定します。しかし、文書の数に一度とうまくスケールすることができないプロセスを、ソート百万の上に速い必要があります。テキストの自動分類に私たちをもたらし、あなたが考える必要があるプロセスをより効率的な文書の分類と高速、自動化されたテキスト分類のタスクを、作るために。

テキストの自動分類を実現するには、機械学習の手法や概念のいくつかの利点を取ることができます。ここでは、この問題を解決するに関連する技術の2つの種類があります。

  • 教師付き機械学習。
  • 教師なし機械学習。

また、このような強化学習と半教師あり学習として、いくつかの他の機械学習アルゴリズムファミリがあります。次に、これらのテキストファイルの分類を使用する方法を学ぶために機械学習アルゴリズムからより多くの教師や教師なし機械学習機械学習アルゴリズムを理解するために登ります。

教師なし学習は、特定の機械学習アルゴリズムやモデルを確立するために、事前にトレーニングデータサンプルをマークする必要はありませ指します。典型的には、解決すべき特定の問題に応じて、テキストまたは数値型とすることができるデータ点のセットがあります。我々「特徴抽出」データの各々から特徴を抽出することによって呼び出される手続き、及びアルゴリズムへの入力を設定し、各データの特性から。そのようなクラスタリングまたは類似のデータのグループ化のための技術的トピックモデルのテキストベースの要約を使用するなど、これらのデータから意味のあるパターンを抽出しようとします。この技術は、文書の注釈データパケットのいずれかのモデルの訓練を使用せず、また、我々は、テキストの機能のみに依存し、類似度を属性文書クラスタリングとして知られているテキスト分類に有用です。フォローアップがテーマのモデリング、ドキュメントの輝き、類似性分析、クラスタリングなどの教師なし学習を、説明して説明します。


教師あり学習は、予めマークサンプルデータを訓練された特定の機械学習技術またはアルゴリズム(また、訓練データと呼ばれる)を指します。特徴抽出データまたは属性を使用して抽出する特徴は、各データ点に対して、セット/ラベルに対応する地物種別を有するであろう。トレーニングデータから各カテゴリのアルゴリズムの異なるモデルを学びます。調査が完了したら、それは訓練されたモデルになります。テストモデルに将来のデータサンプルの特性と、モデルは、分類テストデータサンプルを予測することができます。このような機械は、トレーニングの分類の位置を予測するためにデータサンプルのサンプルに基づいて新しいデータを学びました。

現在、教師付き学習アルゴリズムの2つの主なタイプがあります。

カテゴリー:予測出力が呼ばれる教師付き学習の分類を構成する、ディスクリート型であるため、この場合の出力変数は、変数の型です。例としては、ニュースフィルムの分類や分類が含まれます。

戻り値:我々は出力に連続する数値変数の結果をしたい場合は、回帰アルゴリズムと呼ばれる機械学習アルゴリズムを監修。例としては、住宅価格や人の体重が含まれます。

現時点では、分類の問題について、個別のカテゴリや分類にテキストファイルを試してみてください。

さて、準備は自動的に定義するか、数学、マシンベースのテキスト分類プロセス。文書の収集、適切なカテゴリや分類ラベル付き文書のコレクションがあります。このセットは、することができる  TSは  、この文書とタグのセットであると言わTS  = {(D 1、C 1)、(D 2、C 2)、...、(DのN末端、CのN-場合、)} D 1、D 2、...、D N-  テキストリスト、C 1、C 2、...、CNは、テキストに対応するタイプです。Cの場合のX  €は{C = C 1、C 2、...、C N - }、CのXは、  文書タイプに対応するxを表し、Cはすべての可能な離散的なカテゴリの集合を表す、ドキュメントは、任意の素子であってもよいし、または1種類以上。トレーニングデータセットがあったと仮定すると、あなたは教師付き学習アルゴリズムを定義することができます  Fを訓練データにおけるアルゴリズム際、  TS  トレーニングセットした後は、訓練された分類器のYを取得し、それはのように表すことができます。 F.  (TSは)Yを= そのため、用入力Fセット(ドキュメント、クラス)を使用して、教師付き学習アルゴリズム  TSは、我々のモデルで訓練された分類器のYを取得します。上記のプロセスは、トレーニング・プロセスと呼ばれています。

新しい、未知の文書のこのモデル入力  NDが、文書Cのタイプを予測することができNDを Cとなるよう、ND  €Cは、このプロセスは、予測プロセスと呼ばれているが、Yのように表すことができます:TD→C NDだから、見る教師のテキスト分類プロセスは、主に2つのプロセスで構成されています。

  • トレーニング
  • 予測。

覚えておくべき重要な点は、教師付きテキスト分類もまた、私たちの自動処理を開始するには、いくつかの手作業を必要とし、我々はテキストの自動分類について話している場合でも、トレーニングデータのいくつかの手動注釈を必要としています。もちろん、これは新しいドキュメントを予測し、分類保つために、少ない労力と人間の監督を使用し、また、利点の広い範囲です。

以下は、異なる学習方法やアルゴリズムについて説明します。これらは、学習アルゴリズムは、特徴抽出を介してデータ前処理の様々なタイプに適用することができる一般的な機械であるテキストデータのみならず発します。これは、教師付き機械学習アルゴリズムの多くを伴う、およびテキスト分類の実際の問題を解決するためにそれらを使用します。これらのアルゴリズムは、通常、トレーニングデータセットに訓練され、ヤンはオーバーフィットトレーニングデータを避けるために、代替モデル検証データセットに対して実行しました。過剰適合 新しい内部パラメータの基本的な手段は、パフォーマンス・メトリック(例えば、検証セットの精度)や性能を評価するために、クロスバリデーションを用いて。場合クロスバリデーション、トレーニング及び検証セットにトレーニングデータのランダムサンプルを使用。これらは、トレーニングプロセスを構成し、出力が完全に訓練されたモデルが予測することができています。予測期間では、試験データの一般的な使用は、新しいデータを設定します。正規化および機能抽出処理した後、それらをモデルに訓練された後、モデルが予測性能を評価することによって行われる方法をうまく観察します。

予測予測タイプの数および性質に基づいて、テキストの分類の様々なものがあります。分類は、データセットの種類の数に基づいて、データセットのタイプまたはクラスに関連付けられている番号は、データ点を予測することができます。

  • 離散的なバイナリ分類タイプまたはクラスの数が2である場合、それらのいずれかを予測することができます。
  • 場合2つ以上のタイプ、クラスまたはカテゴリ所与予測これらのタイプのそれぞれの数も多クラス分類多変量分類として知られ、それは問題を指します。ときに拡張バイナリカテゴリの問題である2以上のすべてのタイプの数、。
  • マルチラベル分類は、予測結果の複数の結果/予測タイプを生成することができる、任意のデータを指します。

おすすめ

転載: www.cnblogs.com/dalton/p/11353926.html