BERTの利用実績

使用すると、用語ベクトルを生成するBERT:

#####运行此脚本
輸出BERT_BASE_DIR = ./chinese_L-12_H-768_A-12 ##模型地址
exprot DATA_DIR = ./data

のpython BERT-マスター/ extract_features.py \
  --input_file = $ DATA_DIR / train_ch.txt \
  --output_file = $ DATA_DIR / output.json \
  --vocab_file = $ BERT_BASE_DIR / vocab.txt \
  --bert_config_file = $ BERT_BASE_DIR / bert_config.json \
  --init_checkpoint = $ BERT_BASE_DIR / bert_model.ckpt \
  --layers = -1 、-2、-3、-4 \
  --max_seq_length = 128 \
  --batch_size = 8

このフォームの成果文書:

 { "linex_index":0、 "機能":[{ "トークン": "[CLS]"、 "層":[{ "インデックス" -1 "値" [ -  0.919886、0.656876、-0.58464654]} ]}]}

コードをデコードします:

インポート再
インポートのJSON

SRC = ''
TGT = ''

DEF楽しい(FILE1、FILE2):
  オープン(FILE1、R ''、コード= 'UTF-8')FL1として有する:
    オープン(FILE2と、 'W'、符号化= 'UTF-8')FL2として:
      K = 0
      fl1.readlinesの行のための():
        K + = 1
        行= json.loads(ライン)
        TEMP = line.get( '特徴')
        TEMP = TEMP [1]
        TEMP = temp.get( '層')
        TEMP = TEMP [1]
        TEMP = temp.get( "値")
        fl2.write(STR(TEMP)+ '\ n' + '\ n')##好看一些
        K場合1000%== 0:
          印刷( "完了" +」「+ STR(K))

楽しい(SRC、TGT)  

 

おすすめ

転載: www.cnblogs.com/hanouba/p/11912107.html