TF-IDF&CNN


IDF-TF
----------------------------------------------- -----------------
小さい周波数、それ以上の異なるカテゴリを区別する能力、その逆文書頻度のIDFの概念の導入を表示されるテキストの言葉を信じて:TFへそして、IDFの特徴空間の尺度としての値の積は、座標系。

wiは特徴語の重みi番目の重みを表し、群TFi(T、D)発生のTワード文書dの頻度を表し、Nは、ドキュメントの総数を表し、DF(t)は、Tを含む文書の数を表します。他の文書における出現の少ない数は、それが本文書によって表される単語を区別することを示している言葉は、本書で表示されたときにTF-IDFと特徴語の重み値を計算するアルゴリズムは、より高い周波数であります能力強いので、その重量値が大きくなければなりません。

すべてのソートされた単語の重みは、必要な2つの選択方法がある:
キーワードの固定された重量の最大数nを選択し
、特定の閾値よりも大きいキーワードの重み選択
データのある経験の概念は、選択したコンピュータキーワード10∽15番号、人工選択4∽6におけるキーワードの数がより適切には、一般的に最高のカバレッジと特異性を持っています。

また、アカウントに言葉の異なるカテゴリ間を区別する能力を取って、TFIDFフランス人は、されるテキストの種類を区別する能力で、テキストの単語が少ない周波数を表示されます信じています。したがって、逆ドキュメント頻度IDFの概念を導入する特徴空間の尺度としてのTFとIDF値の積に座標系、および体重調節TFの目的を達成するためにそれを使用して、重みを調整する第二の抑制、重要な単語を強調表示します言葉。しかし、本質的に、それはIDF加重ノイズを抑制しようとする試みであり、単純には、より重要な小さなテキストの単語頻度は、より多くの無用のテキスト大きな周波数言葉は、これは全く正しくない明らかだと思います。IDFのシンプルな構造の分布とは、効果的に重量調整機能に非常に良いハンドル作り、単語と単語の機能の重要性を反映することはできませんので、精度は非常に高いTF * IDFの法律ではありません。

文書頻度(文書頻度、DF)は、単語を含むテキストの数をデータセット全体を指し、最も単純な特徴選択アルゴリズムの一つです。希少なエントリがトレーニングセットの特定の種類に見られたが、それはうまくカテゴリの特性を反映することができ、かつので、設定されたしきい値を下回ると除外場合でも、判決はそう、重要な情報が破棄されて含まれてい分類精度に何らかの影響があるでしょう。

テキスト特徴を抽出すると、コンテンツに再び最強の単語、名詞と動詞は、テキストのクラス特性のためのテキスト式で唯一の名詞と動詞を抽出することが可能である一方で、あなたはまず、これらの無用のテキスト分類機能語を削除することを検討すべきです単語レベル特徴テキストとして。

統計によると、語彙の単語よりは、一般的にキーワードとして適していない単語を、使用されているので、キーワードが実際に制限を作るために単語を取得することができます。例えば、キーワードが5を抽出し、本明細書に最大3つの単語のキーワードが存在することができます。


CNN畳み込みニューラルネットワーク
--------------------------------------------- -------------------
*&畳み込み演算を備え
、たとえば、写真を撮ること。
いくつかの写真は、文字のXを描いているが、Xは、各画像が異なって見えるが、彼らはX.のように定義されています
彼らはいつも、このようなライン知人のパラグラフと同じ機能のいくつかを持っています。そして、これらの線が会った、いくつかの機能(機能が)言います。
コンボリューション後、各特徴は、「機能」、(図の平均を埋める新しいグラフである。)特徴マップを与えるために、元の画像うちから抽出された
値マップの特徴は、内部に、1に近いが示す対応する位置と、より完全-1に対してより近く、及び逆位置を表す一致特徴がより完全の対応する特徴に一致し、0に近い値がマッチしない又は全く相関に対応する位置を示しています。
このマップ上のXは、我々は3つの機能を使用するため、最終的には3個の特徴マップを生成します。

非線形活性層
非線形活性化関数の作用により、特徴量<0のマップ、0に設定。

・プーリング層をプールし
、図の特性を低下させるためにデータ量。
プールは2、最大プール最大のプールに分割して、平均プーリング平均をプール。名前が示すように、プーリングが平均値平均化され、最大プーリングの最大値を取ることです。
各タイル内の最大値の保持と最大プールので、それはベストマッチの一当量を保持するように(1に近い値とすることは、より良い一致を示しています)。
CNNは、画像が特定の特性を有するかどうかを見出すことができます。これは、一つの画素が一致することにより、コンピュータ1の前述の剛性の練習を解決するのに役立ちます。

・完全に接続されている層
に完全に接続されている層が行うすべての操作は、結論の前に行うために、私たちの最終的な結果を与えることです。これは、特徴マップ上の最大の目的は、各分類カテゴリに対応する確率値を取得するために寸法を変化させます。

コンボリューション層は、「ローカル接続」の考え方を使用しています。
そのウィンドウに加えて、一部が接続されていないどのようにそれを行うには?我々は、すべてのフォローアップ接続のスライディングウィンドウ法を使用して、知っています。この方法の考え方は、「パラメータ共有」パラメータは、畳み込み演算のための接続の各領域における元のフィルタにこの値を共有するために、ウィンドウファッションスライディング、フィルタを指します。

または背面図2X2の特性を得るために、次の動作を確認するために、完全接続ネットワークは、それに適用され、その後、全体接続層は、分類の関数である、----ソフトマックスの非常に重要な機能を有し、出力当たり対応する確率カテゴリ値。例えば:
[] 0.5,0.03,0.89,0.97,0.42,0.15は、6つのカテゴリがあると言い、及び100の最大値の第四のカテゴリーに属する確率は、それが第四のカテゴリに属して決定されます。
このように、直接3次元の機能は1次元データに直接マップ変更。一次元データは、確率値です。

・ニューラルネットワークの訓練との最適化
トレーニングは、それらのコンボリューションカーネル(フィルタ)です。
BPアルゴリズム---バックプロパゲーション逆伝搬アルゴリズム、学習データがたくさん。

訓練では、我々が使用するトレーニングデータは、一般的に絵をラベルにラベルを付けています。画像内の文字がXであれば画像内の文字は、次にラベル= Aである場合、次いで、= xをラベル ラベルは、直接絵を反映することができます。

初めに、トレーニングの前に、我々はサイズ3X3、私たちは知りませんが、それはゼロにすることはできませんので、私は割り当てを実行するために、ランダムな初期化メソッドを使用し、どのくらいとなっている、特定の値の畳み込みカーネルを定義します。最初にエラーがあります。トレーニングの究極の目的は、最小誤差を作ることです、一般的に使用される方法は、勾配降下法です。

 

おすすめ

転載: www.cnblogs.com/luckcs/p/11237628.html