1、コード
デフ clean_text(テキスト、remove_stopwords = 偽): "" " 数据清洗 """ テキスト = BeautifulSoup(テキスト、' html.parser ' ).get_text() テキスト = re.sub(R ' [^-ZA-Z] ' ' ' 、テキスト) ワード = text.lower()スプリット()。 もしremove_stopwords: 言葉 = [W ための W における単語場合 W ない でeng_stopwords] 戻り単語 DEFto_review_vector(レビュー): "" " 获取词向量 """ グローバルword_vecの 見直し = clean_text(レビュー、remove_stopwords = TRUE) #の印刷(レビュー) #の言葉= nltk.word_tokenize(レビュー) word_vec = np.zeros((1300 )) 以下のための単語でレビュー: #word_vec = np.zeros((1300)) であれば言葉でモデル: word_vec + = np.array([モデル[ワード]) #1 プリント(word_vec.mean(軸= 0)) 戻り PD。シリーズ(word_vec.mean(軸= 0))