使用BERT获取中文词向量 - 代码天地

使用BERT获取中文词向量

其他 2019-03-13 14:00:57 阅读次数: 0

BERT其中的一个重要作用是可以生成词向量，它可以解决word2vec中无法解决的一词多义问题。

然而BERT获取词向量的门槛要比word2vec要高得多。笔者在这里介绍一下如何获取BERT的词向量。

笔者在获取BERT词向量的时候用到了肖涵博士的bert-as-service，具体使用方式如下。

环境要求：python版本>=3.5,tensorflow版本>=1.10（笔者使用的是1.12）
相关包的安装：pip install bert-serving-server; pip install bert-serving-client
下载训练好的BERT中文模型：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
启动bert-as-service :在cmd窗口进入bert-serving-start.exe所在的文件夹，在该文件路径下输入bert-serving-start -model_dir E:/chinese_L-12_H-768_A-12 -num_worker=2（训练好的中文模型路径，num_worker的数量可以自行选择），如果成功开启则出现以下界面

接着可以在pycharm终端写入以下代码：


  
  
   
   
    
    
     
     
    
    
    
    
     
     
      
      from bert_serving.client 
      
      import BertClient
     
     
    
    
   
   
    
    
     
     
    
    
    
    
     
     
      
      bc = BertClient()
     
     
    
    
   
   
    
    
     
     
    
    
    
    
     
     
      
      print(bc.encode([
      
      '中国', 
      
      '美国']))

可得到词向量为（词向量的维度为768）：

获取完BERT词向量后就可以结合CNN、RNN等模型来实现自己的任务。在博客写作的过程中参考以下网址：

https://www.jianshu.com/p/bafdd927ef02

https://www.gaozhengjie.cn/archives/240/

BERT其中的一个重要作用是可以生成词向量，它可以解决word2vec中无法解决的一词多义问题。

猜你喜欢

转载自blog.csdn.net/zhonglongshen/article/details/88125958

使用BERT获取中文词向量

Bert 得到中文词向量

使用transformers框架导入bert模型提取中文词向量

中文词向量

中文词向量训练

Chinese Word Vectors 中文词向量（可获取）

使用 DL4J 训练中文词向量

使用word2vec训练中文词向量

中文词向量论文综述

训练GloVe中文词向量

中文词向量论文综述（四）

中文词向量论文综述（三）

gensim中文词向量训练实战

NLP：使用 gensim 中的 word2vec 训练中文词向量

使用BERT生成句向量

bert作为词向量的使用

word2vec 构建中文词向量

训练中文词向量 word2vec

Word2vec训练中文词向量

Ubuntu下GloVe中文词向量模型训练

基于word2vec的中文词向量训练

自然语言处理 | (20) 中文词向量训练

用维基百科训练中文词向量

使用bert将中文文本转化成词向量的方法

汉字的字向量、词向量和表示学习（中文词向量）

快速使用 BERT 生成词向量：bert-as-service

使用BERT模型生成句子序列向量

使用BERT模型生成token级向量

词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

NLP模型笔记2022-16：词向量与中文词向量论文综述

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)