深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算 - 代码天地

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

其他 2018-11-01 01:41:31 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/mpk_no1/article/details/72510677

本文主要介绍一个Word2vec和Doc2vec应用示例：用Word2vec做词的相似度计算和用Doc2vec做句子的相似度计算。

该示例主要包含两部分：

1.训练Word2vec模型和Doc2vec模型；

2.用训练好的Word2vec模型和Doc2vec模型分别进行词相似度计算和句子相似度计算。

本例中采用的数据是13万多本中文科技图书的一级目录标题，将图书目录标题按行存储，每行是一个标题，用中文分词工具HanLP进行分词。分词结果如下如所示：

将分词的结果传入Word2vec模型和Doc2vec模型训练词的word2vec和目录标题的doc2vec。Word2vec模型和Doc2vec模型训练使用的Java版本实现的，可以从我的GitHub上获取（Java版本Word2vec和doc2vec）。

训练好Word2vec模型和Doc2vec模型之后，就可以将模型加载进内存中，然后对输入的词语计算跟它最相近的TOP10个词（按降序排序），对输入的标题计算跟它最相近的TOP10个标题（按降序排序）。

相似度计算公式采用的是余弦相似度：

下面是词相似度计算的例子：

从上图中可以看出，词的相似度计算结果还是可以的，一般都能找到有一定关系的词语。

下面是标题相似度计算的例子：

从图中可以看出，标题相似度的例子并不太好，分析原因：一则可能是语料库不够大；二则图书目录标题太短，分词之后一般只有几个词语，这样将每一个标题当做一个文档训练得到的Doc2vec的效果就不够好。这方面还有很大改进空间。

具体代码可以到我的GitHub上获取，欢迎fork和star。地址：点击打开链接

猜你喜欢

转载自blog.csdn.net/mpk_no1/article/details/72510677

深度学习笔记——Word2vec和Doc2vec应用举例：词和句子的相似度计算

深度学习笔记——基于Word2vec和Doc2vec的句子对匹配方法

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

深度学习笔记——Word2vec和Doc2vec训练实例以及参数解读

深度学习笔记——Word2vec和Doc2vec原理理解并结合代码分析

word2vec 和 doc2vec

Word2vec 和 Doc2vec 总结

word2vec和doc2vec的总结

word2vec 和 doc2vec 相似和区别

Doc2Vec计算句子相似度

word2vec和doc2vec模型详解及应用

Doc2Vec,Word2Vec文本相似度初体验。

Python训练Word2Vec和Doc2Vec

数据转换Word2Vec和Doc2Vec

动手实践word2vec和doc2vec模型

word2vec、doc2vec的使用

机器学习算法Python实现：doc2vec 求句子相似度

基于doc2vec计算文本相似度

深度学习笔记09-词嵌入和word2vec(NLP领域)

word2vec中文相似词计算和聚类

基于word2vec的疾病和手术相关词语的相似度计算

学习笔记|Doc2Vec

word2vec 计算相似度（基于Wiki）

基于Word2Vec 的相似度计算

[zt]word2vec词向量训练及中文文本相似度计算

word2vec词向量训练及中文文本相似度计算

doc2vec介绍和实践

doc2vec方法判断文本相似度

Doc2Vec - 计算文档之间的相似性

深度学习-nlp系列（4）：Word2Vec 字&词向量的训练和使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)