使用すると、用語ベクトルを生成するBERT:
#####运行此脚本
輸出BERT_BASE_DIR = ./chinese_L-12_H-768_A-12 ##模型地址
exprot DATA_DIR = ./data
のpython BERT-マスター/ extract_features.py \
--input_file = $ DATA_DIR / train_ch.txt \
--output_file = $ DATA_DIR / output.json \
--vocab_file = $ BERT_BASE_DIR / vocab.txt \
--bert_config_file = $ BERT_BASE_DIR / bert_config.json \
--init_checkpoint = $ BERT_BASE_DIR / bert_model.ckpt \
--layers = -1 、-2、-3、-4 \
--max_seq_length = 128 \
--batch_size = 8
このフォームの成果文書:
{ "linex_index":0、 "機能":[{ "トークン": "[CLS]"、 "層":[{ "インデックス" -1 "値" [ - 0.919886、0.656876、-0.58464654]} ]}]}
コードをデコードします:
インポート再
インポートのJSON
SRC = ''
TGT = ''
DEF楽しい(FILE1、FILE2):
オープン(FILE1、R ''、コード= 'UTF-8')FL1として有する:
オープン(FILE2と、 'W'、符号化= 'UTF-8')FL2として:
K = 0
fl1.readlinesの行のための():
K + = 1
行= json.loads(ライン)
TEMP = line.get( '特徴')
TEMP = TEMP [1]
TEMP = temp.get( '層')
TEMP = TEMP [1]
TEMP = temp.get( "値")
fl2.write(STR(TEMP)+ '\ n' + '\ n')##好看一些
K場合1000%== 0:
印刷( "完了" +」「+ STR(K))
楽しい(SRC、TGT)