Tencent AI Labは、800万を超える中国語の単語を含む、大規模で高品質の中国語の単語ベクトルデータのオープンソースを発表しました。既存の公開データと比較して、カバレッジ、鮮度、正確性が大幅に向上し、対話応答の品質が向上しています。予測や医療機関の認識などの自然言語処理の方向でのビジネスアプリケーションは、大幅なパフォーマンスの向上をもたらしました。しかし、大きな問題があります。つまり、単語ベクトルが大きすぎて約16gであり、通常のサーバーで単語ベクトルを読み取るのに30分かかります。一般ユーザーは大きすぎる単語ベクトルを必要としません。ユーザーの便宜のために、この記事ではTencentの元の単語ベクトルの簡略版を収集し、ダウンロード用にさまざまなサイズの単語ベクトルを提供します。
ワードベクトルと埋め込みテクノロジーの詳細については、この記事を参照してください(図解word2vec(元の翻訳))
Tencent AI Labのオープンソースの大規模で高品質な中国語の単語ベクトルデータの概要:
https://cloud.tencent.com/developer/article/1356164
元のTencent単語ベクトルをダウンロードします。
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz(6.31g、約16gを解凍、Baiduクラウドのダウンロードは記事の最後にあります)
使い方
多くのモデルをテストする必要があります。最初のテストでは、70,000ワードバージョン(133mb)などの小さいワードベクトルバージョンを使用し、最後に800万ワードの元のバージョンを使用することをお勧めします。これにより、実験時間を大幅に節約できます。多くの場合、70,000ワードのワードベクトルはすでに要件を満たすことができます。
モデルを読む
from gensim.models
import KeyedVectors
model
= KeyedVectors.load_word2vec_format("50-small.txt")
モデルを使用
model.most_similar(positive=['女',
'国王'],
negative=['男'],
topn=1)
model.doesnt_match("上海 成都 广州 北京".split(" "))
model.similarity('女人',
'男人')
model.most_similar('特朗普',topn=10)
深層学習モデルの例
LSTMモデルを使用して、Doubanのコメントに基づいてスコアを予測します。
- まず、Doubanのデータをダウンロードします
Doubanコメントデータ149M(記事の最後からダウンロード可能)
-
次に、ライブラリに対応する単語セグメンテーションパッケージをダウンロードします。(記事の最後にダウンロード可能)
- 効果
70,000の辞書をロードする前
70,000の辞書をロードした後
- コードファイルを見る
doubandatasets.ipynbでTencentWord Embeddingsを使用します(記事の最後にダウンロードできます)
参照:
https://github.com/cliuxinxin/TX-WORD2VEC-SMALL(この弟が集めた、主演したい)
https://cloud.tencent.com/developer/article/1356164
まとめとダウンロード
Tencent AI Labのオープンソースの中国語の単語ベクトルデータには800万を超える中国語の単語が含まれています。既存の公開データと比較すると、カバレッジ、鮮度、精度は大幅に向上していますが、単語ベクトルが大きすぎるという大きな問題があります。 、約15g、通常のサーバーでワードベクトルを読み取るのに30分かかります。一般ユーザーは大きすぎる単語ベクトルを必要としません。ユーザーの便宜のために、この記事ではTencentの元の単語ベクトルの簡略版を収集し、ダウンロード用にさまざまなサイズの単語ベクトルを提供します。そして、単語ベクトルのダウンロードのさまざまな大小のバージョンを提供します。
ワードベクトルと関連データのダウンロード:
ルートディレクトリ:
-
5000-small.txtこれは5000語で、ダウンロードして再生できます
-
45000-small.txt 4.5wのこの単語は、多くの問題を解決できます
-
70000-small.txt7w词133MB
-
100000-small.txt10wワード190MB
- 500000-small.txt50w词953MB
-
1000000-small.txt100w词1.9GB
- 2000000-small.txt200w词3.8GB
- Tencent_AILab_ChineseEmbedding.tar.gz元の単語ベクトル(6.31g)、解凍後16g
コードフォルダ
-
doubanmovieshortcomments.zipDoubanコメントデータ149M
-
ワードセグメンテーションファイル(例:8000000-dict.txtなど)
- doubandatasets.ipynb(テストコード)でTencentWord埋め込みを使用する