如何使用向量代表文档doc或者句子sentence - 代码天地

如何使用向量代表文档doc或者句子sentence

其他 2018-10-31 09:41:35 阅读次数: 0

1.“句向量”简介
word2vec提供了高质量的词向量，并在一些任务中表现良好。
关于word2vec的原理可以参考这几篇论文：

https://arxiv.org/pdf/1310.4546.pdf
https://arxiv.org/pdf/1301.3781.pdf
关于如何使用第三方库gensim训练word2vec可以参考这篇博客：

http://blog.csdn.net/john_xyz/article/details/54706807
尽管word2vec提供了高质量的词汇向量，仍然没有有效的方法将它们结合成一个高质量的文档向量。对于一个句子、文档或者说一个段落，怎么把这些数据投影到向量空间中，并具有丰富的语义表达呢？过去人们常常使用以下几种方法：

bag of words
LDA
average word vectors
tfidf-weighting word vectors
就bag of words而言，有如下缺点：1.没有考虑到单词的顺序，2.忽略了单词的语义信息。因此这种方法对于短文本效果很差，对于长文本效果一般，通常在科研中用来做baseline。

average word vectors就是简单的对句子中的所有词向量取平均。是一种简单有效的方法，但缺点也是没有考虑到单词的顺序

tfidf-weighting word vectors是指对句子中的所有词向量根据tfidf权重加权求和，是常用的一种计算sentence embedding的方法，在某些问题上表现很好，相比于简单的对所有词向量求平均，考虑到了tfidf权重，因此句子中更重要的词占得比重就更大。但缺点也是没有考虑到单词的顺序

LDA模型当然就是计算出一片文档或者句子的主题分布。也常常用于文本分类任务，后面会专门写一篇文章介绍LDA模型和doc2vec的本质不同
---------------------
作者：Johnson0722
来源：CSDN
原文：https://blog.csdn.net/John_xyz/article/details/79208564
版权声明：本文为博主原创文章，转载请附上博文链接！

猜你喜欢

转载自www.cnblogs.com/yjybupt/p/9881048.html

如何使用向量代表文档doc或者句子sentence

用 Doc2Vec 得到文档／段落／句子的向量表达用 Doc2Vec 得到文档／段落／句子的向量

用 Doc2Vec 得到文档／段落／句子的向量表达

使用gensim的doc2vec生成文档向量

将句子表示为向量（上）：无监督句子表示学习（sentence embedding）

将句子表示为向量（下）：基于监督学习的句子表示学习（sentence embedding）

使用deeplearning4j训练Doc2Vec(文档向量)

Myeclipse如何导出doc文档

使用BERT模型生成句子序列向量

句向量 Sentence Embedding

详细介绍Sentence-BERT:使用连体BERT网络的句子嵌入

句子/文档表征：SoW、BoW、TF-IDF、Hash Trick、doc2vec、DBoW、DM

使用readthedocs 发布 sphinx doc文档

使用docxtpl模块自动填充doc文档

Android 使用Poi 修改Doc文档

使用知识抽取生成跨语言的单语句子向量

使用word批量将.docx（或者.doc）转成.pdf

使用Python提取和筛选Word文档中的句子

自然语言处理--利用 Doc2vec 计算文档向量

中文自然语言处理--文档向量Doc2Vec

Doc文档如何转换成WPS格式

如何写Java文档注释(Java Doc Comments)

选择最可能的句子（Picking the most likely sentence）

使用swagger作为restful api的doc文档生成

使用python-docx读取doc,docx文档

使用Gradle生成source源码包和doc文档包

Java使用poi读取doc/docx文档内容

From Word Embedding to Sentence Embedding:从词向量到句向量

Java读取doc文档

poi读取doc文档

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)