nlp之词汇分布式表征 - 代码天地

nlp之词汇分布式表征

其他 2018-07-16 18:05:21 阅读次数: 0

1、word embedding

词嵌入，也叫词向量。对于文本数据，我们需要将其转换为数值型才能输入到模型中。词向量就是这样一种转换数据的方法。通常我们表示文本数据是将其one-hot编码，比如某文本有10000个不同的词汇，我们将其编码成10000维的向量，其中只在某一位数值是1，其他是0。那么一个语句包含了多个词汇，我们如何将其转化为多维向量。一种是纯粹的自用one-hot编码即可，但是这样没有考虑词汇与词汇之间的相关性，也没有考虑语法结构问题。
所以，我们参考自编码模型，通过输入相关的词汇(x_a,x_b)对作为模型的输入输出，求得其中间隐藏层的权重矩阵w。然后将w乘以输入语句X就可以得到了我们说想要的这个句子的词向量表示。

2、word2vec

谷歌推出的word2vec正是这样的一种模型。将词汇表示称向量，具有关联性的词汇之间通过之前的模型训练，它们所得的向量之间也具有相关性。而如何得到词汇对有下面两种做法。

3、skip-gram

根据当前单词预测上下文。通过固定的窗口对句子进行滑动，截取词汇对。如“我想要去北京“这一句，可以截取成“我–我想，我要“；“想-我想，想要，想去“；“要-我要；想要；要去；要北“等与当前词相关的词汇对。然后放入模型中去训练，最后一层接上softmax可以得到这种词汇对出现在整个文本中的概率大小。

4、cbow

使用上下文预测当前词汇。

（待续～～）

猜你喜欢

转载自blog.csdn.net/wyisfish/article/details/79727770

nlp之词汇分布式表征

【NLP】分词之词的概念

英语学习之路之词汇

NLP之词频作向量

token:NLP之词形还原

NLP (一): 自然语言和单词的分布式表示

分布式-分布式锁

分布式-分布式事务

分布式---分布式锁

分布式---分布式事务

分布式——分布式锁

【分布式】分布式研究

分布式- 分布式锁

[分布式]-分布式事务

分布式

分布式--zookeeper

分布式爬虫

分布式共识

分布式git

分布式与集群

分布式编程

分布式配置

分布式调度

分布式限流

分布式系统

分布式--锁

分布式锁

面试 -- 分布式

分布式事务

分布式的理解

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)