まず、ベクターへのコーパス(gensim)
基本的なコーパス(単語、単語を停止する)の処理後に、それ以降の作業を容易にするために、量子化することが時々必要です。
gensim インポートコーパスでは、類似点、モデル のインポートjiebaの #1 ステップ1:裁判官にコーパスコーパスと文を決定します 。# 。コーパス、コーパスとしてワードリスト3つの文章、3つの記事の同等がある ワードリスト= [ " Iプログラミングのような「」私は美しくなりたい「」まだ昼食のために今日を「] sentenses = 」私が好きなもの" #のステップ2:使用は、このように、ライブラリーに期待されるように、各単語のシリアル番号にマークされている辞書コーパスを確立します。 { 'I':1、 'のような':2 'プログラム':3、....}最初中国語の単語である テキスト= [[Wordのための単語 で jieba.cut(ワード)] のための単語で単語リスト] 辞書 =corpora.Dictionary(テキスト) を印刷(辞書) #各単語の単語頻度統計のコーパスの第三段階は、すべての単語をdoc2bowは、周波数統計は、一覧に渡される単語である #2次元のコーパスのGETです配列[[(0,1)、(1,1)、(2,1)]、[(3,1)、(4,1)]、[(5,1)、(6,1)、( 7,1)、(8,1)、(9,1)]、その周波数ワードを意味数0回出現している1、2番目のワードの出現頻度が1回 コーパス= [dictionary.doc2bow (ワード)用のWord でテキスト】 プリント(コーパス)#GET二次元アレイ、最小の要素(単語のID番号、単語頻度)
コードの結果:
私たちは、使用gensim.corpora.dictionary.Dictionaryクラスは、コーパス内の各単語が表示されるまで一意の整数番号が割り当てられます。この操作は、ワードカウントや他の統計情報の収集です。終わりに、私たちは、それぞれの文書は10桁の数字で表現されることを示唆し、言葉の10種類のコーパスがあることがわかり
doc2bow機能は主に単語モデルの弓袋にDIC作るために使用され、それぞれ異なる単語の出現回数をカウントし、その数にワード、及びスパースベクトルとして戻り結果ました。符号語コーパスは、各サブリストは、物品を表明しているバッグモデルのコーパスです。
TFIDFは、それは言葉より大きな、より多くの価値のTFIDFこの記事への重要性を反映すると考えられているため、フロントには、キーワード抽出のために使用することができると述べました。しかし、TF-IDFはまた、抽出、特徴選択(エキス重要な機能)作業をダイジェスト記事に似た記事を検索するために使用されます。次のステップは、3件の記事やコーパスの類似比較、次のコードのsentensesにある場合:
#ステップ4:モデルTFIDF使用訓練コーパス モデル= models.TfidfModel(コーパス) #あなたがTFIDFの値を表示したい場合は、次のことができます。 TFIDF = モデル[コーパス] 「」 ' 結果は、各単語の値TFIDF TFIDFコーパスです [(0、0.5773502691896258)、(1、0.5773502691896258)、(2、0.5773502691896258)] [(3、0.7071067811865475)、(4、0.7071067811865475)] [(5、0.4472135954999579)、(6、0.4472135954999579)、(7、0.4472135954999579) 、(8、0.4472135954999579)、(9、0.4472135954999579)] '' ' #のステップ5:類似のクエリを容易TFIDF各文章モデル、入来値コーパスTFIDFインデクシング 類似= 類似性を。 MatrixSimilarity(TFIDF) #文を比較する第6のステップのプロセス、最初の単語は、次の単語の周波数を受信し、jiebaのみ着信ストリング SEN = [ワード用のWordjieba.cut(sentenses)] SEN2 = dictionary.doc2bow(SEN) 位次いでTFIDFその値を算出 sen_tfidf = モデル[SEN2] #全ての文章との得られた類似度、SIMは、アレイ出力である SIM =類似度[sen_tfidf]
https://blog.csdn.net/Lau_Sen/article/details/80436819
TFIDFコード、及びsen_tfidfコーパスその結果を量子化に新たな文章TFIDF発現されます。多くのモデルは、このようなLSI、LDAと上のように、やってTF-IDFに基づいています。
今すべての文は、[(単語ID番号、IDF値)、(単語ID番号、IDF値)...]このような疎な表現となります。