达观文本竞赛系列(三） - 代码天地

达观文本竞赛系列(三）

其他 2019-04-11 23:27:05 阅读次数: 0

1，word2vec词向量原理：

word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。

用词向量来表示词并不是word2vec的首创，在很久之前就出现了。最早的词向量是很冗长的，它使用是词向量维度大小为整个词汇表的大小，对于每个具体的词汇表中的词，将对应的位置置为1。比如我们有下面的5个词组成的词汇表，词"Queen"的序号为2，那么它的词向量就是(0,1,0,0,0)(0,1,0,0,0)。同样的道理，词"Woman"的词向量就是(0,0,0,1,0)(0,0,0,1,0)。这种词向量的编码方式我们一般叫做1-of-N
representation或者one hot representation.

Distributed representation可以解决One
hot representation的问题，它的思路是通过训练，将每个词都映射到一个较短的词向量上来。所有的这些词向量就构成了向量空间，进而可以用普通的统计学的方法来研究词与词之间的关系。这个较短的词向量维度是多大呢？这个一般需要我们在训练时自己来指定。

用Distributed Representation表示的较短的词向量，我们就可以较容易的分析词之间的关系了，比如我们将词的维度降维到2维，有一个有趣的研究表明，用下图的词向量表示我们的词时，我们可以发现：

King –
Man + Woman = Queen

图片：分布式词向量

可见我们只要得到了词汇表里所有词对应的词向量，那么我们就可以做很多有趣的事情了。

2，简单实践：

在这里插入图片描述

3，Reference：

https://www.cnblogs.com/pinard/p/7243513.html

猜你喜欢

转载自blog.csdn.net/qq_41698853/article/details/89183688

达观文本竞赛系列(三）

达观杯文本分类竞赛 0

达观杯数据竞赛系列（二）

达观杯数据竞赛系列（一）

达观杯数据竞赛系列（四）

【达观杯】数据竞赛学习篇（三）

数据竞赛-“达观杯”文本智能处理-Day1

达观杯文本处理（三）--调优与融合

【数据竞赛】“达观杯”文本智能处理挑战赛２

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（一）数据初识

数据竞赛-“达观杯”文本智能处理-Day6：模型优化

数据竞赛-“达观杯”文本智能处理-Day5：LightGBM模型

数据竞赛-“达观杯”文本智能处理-Day3：word2vec实践

数据竞赛-“达观杯”文本智能处理-Day2：TF-IDF实践

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（四）线性回归LR+支持向量机SVM

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）word2vec词嵌入

【NLP数据竞赛】“达观杯”文本智能处理挑战赛（二）TF-IDF学习笔记

达观杯文本处理（三）--word2vec

【达观杯】数据竞赛学习篇（一）

【达观杯】数据竞赛学习篇（二）

达观杯文本分类比赛

达观杯文本处理（一）

达观杯文本智能信息抽取挑战赛前三名队伍分享

【达观杯】数据竞赛学习篇（六）模型调优

【达观杯】数据竞赛学习篇（五）lightBGM

【达观杯】数据竞赛学习篇（四）LR & SVM

达观杯_构建模型（三）lightGBM

达观数据：文本大数据的机器学习自动分类方法

“达观杯”文本智能处理挑战赛

【机器学习】训练文本分类器（“达观杯”）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)