NLP深学習GET語ベクトル

1、コード

デフ clean_text(テキスト、remove_stopwords = 偽):
     "" " 
    数据清洗
    """ 
    テキスト = BeautifulSoup(テキスト、' html.parser ' ).get_text()
    テキスト = re.sub(R ' [^-ZA-Z] ' '  ' 、テキスト)
    ワード = text.lower()スプリット()。
     もしremove_stopwords:
        言葉 = [W ための W における単語場合 W ない eng_stopwords]
     戻り単語

DEFto_review_vector(レビュー):
     "" " 
    获取词向量
    """ 
    グローバルword_vecの
    
    見直し = clean_text(レビュー、remove_stopwords = TRUE)
    印刷(レビュー)
    #の言葉= nltk.word_tokenize(レビュー) 
    word_vec = np.zeros((1300 ))
     以下のための単語レビュー:
         word_vec = np.zeros((1300))
        であれば言葉モデル:
            word_vec + = np.array([モデル[ワード]) 
     #1 プリント(word_vec.mean(軸= 0))
    戻り PD。シリーズ(word_vec.mean(軸= 0))

 

おすすめ

転載: www.cnblogs.com/ywjfx/p/11041113.html