テキスト機能を選択します

クラスタリングテキスト分類のタスクを実行するには、多くの場合、学習の貴重な分類を抽出し、むしろより次元の呪いを引き起こすすべての単語を過ごすために持っているテキスト機能から抽出する必要があります。したがって、このようなわずかな効果の分類に関するいくつかの単語なので、上の単語を停止し、「でした」。ここでは3つの一般的な特徴選択方法です:

教師なし方法:

  • TF-IDF

監督方法:

  • カイ二乗
  • 情報利得
  • 相互の情報

、TF-IDF
考えは言葉現れるの最大数を見つけることだと思うしやすいです。言葉は非常に重要であるならば、それはこの記事で何回か表示されます。統計(TFと略す用語頻度、)ですから、「単語の出現頻度」。

あなたが推測している必要があります結果は、----最も一般的に使用される言葉「で」の最大出現数----言葉「と」、「はい」、です。彼らは、「ストップワード」(ストップワード)と呼ばれ、彼は言葉を除外する結果を見つけるために何の助けを表明していません。

私たちは、意味のある残りを考慮すると、単語はそれらが除外されていることを前提としています。これは、我々はこれらの三つの言葉のように多く出現、「中国」、「蜂」、「農業」を見つけることが、別の問題が発生します。この平均値は、キーワードとして、その重要性は同じであるのか?

明らかではない場合。「中国は」比較的、「ビー」と「文化」を話す非常に一般的な言葉であるため、それほど一般的ではありません。記事の出現数限りこれらの三つの言葉なら、それは合理的であること、「蜂」と「文化」「中国」という概念よりも重要度、つまり、ソートキーワード上記、「ビー」であり、「文化は中国の前」「にする必要があります」。

だから、私たちは言葉の尺度は、一般的な言葉ではない、重要な調整係数を必要としています。単語は比較的まれであるが、それはかつてこの記事のより多く表示されたら、それはこの記事の特性を反映している可能性が高い、私たちが必要とするキーワードがあります。

単語頻度に基づいて、つまり、統計的言語を使用して、各単語のための「重要度」重みを割り当てることができます。最も一般的な単語(「と」、「はい」、「中」)より少ない重みを与えるために最小重量、より一般的な言葉(「中国」)を与えるために、あまり一般的な単語(「蜂」、「繁殖」 )より大きな重みを与えます。この重みは、「逆ドキュメント頻度」(IDF略記逆文書頻度)と呼ばれ、その大きさ及び共通ワードの範囲は反比例します。

「単語の頻度」(TF)と「逆文書頻度」(IDF)後に、これら2つの値が乗算さを知って、あなたは、単語のTF-IDF値を取得します。記事単語の高い重要性は、それがTF-IDFは大きい値です。だから、いくつかの単語の先頭に、それは、この記事のキーワードです。

TF-IDFアルゴリズムの利点は、より実際の状況に合わせて、簡単かつ迅速です。欠点は、単に単語の「単語の頻度」対策の重要性が、時には重要な言葉は、多くの可能性のある出来事ではないが、十分に包括的ではないということです。また、この方法は、単語の位置情報を反映していないことができ、単語が単語表示上の位置の後に前方位置で表示され、それは真実ではない、同じ重要度として扱われます。(一つの解決策は、最初の段落の全文と各段落の最初の文は、より大きな重みを与えます。)

戦略TF-IDFアルゴリズムは教師なし学習のために使用することができ、文書のカテゴリを知っておく必要がありますが、それは同じ単語の異なる文書に異なるTF-IDF値を持っていない、ここでの処理は私のテイクである各ドキュメントその後、トップK、およびデエンファシスを行います。

第二に、カイ二乗検定の
カイ二乗検定は、実際には2つの変数の独立性の数理統計学のテストの一般的に用いられている方法です。

カイ二乗検定の基本的な考え方は、実際の値と理論値の差を観察することによって、正しい理論かどうかを決定することです。彼らは本当に独立している場合に行うために、特定の、多くの場合、2つの変数が本当に(専門用語が「帰無仮説」と呼ばれている)、その後、実際の値(とも呼ばれる観測値)と理論値を観察独立していることを前提としている(理論値」とは偏差が十分に小さい場合、我々は確かに2は、この独立している、エラーが自然のサンプリング誤差が測定または偶発原因の少ない正確​​な手段であると考え、)乖離の程度を例価値」を持つべきです帰無仮説を受け入れる場合、偏差が​​ある程度大きい場合、このようなエラーが事故又は不正確な測定によって引き起こされる可能性が低いように、我々は、すなわち、帰無仮説を棄却、および代替を受け入れるために、二つが実際に関連している検討します仮定。

それでは、乖離の程度を測定するために?、xの実際の値は、(数学的期待シンボルOHである)仮説値E場合にのみ、すべての試料の観察と理論値との差のxE https://zhuanlan.zhihu.com/p/28053918

おすすめ

転載: www.cnblogs.com/rise0111/p/11297902.html