自然语言处理笔记(一)--句子编码 - 代码天地

自然语言处理笔记(一)--句子编码

其他 2019-03-17 23:51:51 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/LawGeorge/article/details/88312133

NLP最初的步骤就是将文本中的句子表示成计算机能够处理的数字矩阵，而句子是由多个单词组成的，所以表达句子的任务就变成了如何表达单词。表达单词一般有两种大方法：词袋模型，词向量模型。

一、词袋模型(BOW)

将所有出现过的单词装进一个袋子里，忽略词法与语序，每个单词都是独立的。那么单词的维度就是词袋的大小(用单词的出现次数表达)。这样会出现稀疏性的问题(one-hot)。

二、词向量模型(WordEmbedding)

为了表达不同词语之间的相似性，通过大量的语料训练，将每个单词映射到高维空间，通过向量之间的距离表达单词之间的关系。常用算法模型有CBOW，Skip-Gram。Word2Vec工具用到了这两种模型。

1.CBOW模型

输入n个与单词X相关的单词(a1,a2,...,an)(即上下文，位置上就是句子中出现在这个单词附近的单词)，CBOW能够输出这个上下文所代表的中心单词X。

2.Skip-Gram模型

输入单词X，SG能够输出n个与X相关的单词(a1,a2,...,an)。

三、句向量(Sentence2Vec)

本质上还是使用词向量，但是最后表示一个句子不是使用矩阵，而是向量。即将句子的所有单词的词向量做一个非线性变换得到一个能够表示一个句子的向量。具体可以使用单词的TF-IDF或者SIF。

猜你喜欢

转载自blog.csdn.net/LawGeorge/article/details/88312133

自然语言处理笔记(一)--句子编码

自然语言处理——句子的相似度

自然语言处理学习笔记（一）

nlp自然语言处理中句子相似度计算

自然语言处理（一）

自然语言处理综述--《自然语言理解》笔记

《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：03 理解句子的结构

《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第10章分析句子的意思

《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第08章分析句子结构

自然语言处理——（一）语言模型

自然语言处理——语言模型(一)

自然语言处理入门小白从0开始学自然语言处理+学习笔记（一）

自然语言处理学习笔记（五）

自然语言处理学习笔记（四）

自然语言处理学习笔记（三）

自然语言处理学习笔记（二）

自然语言处理学习笔记（英文）

自然语言处理复习笔记 1

自然语言处理复习笔记 2

自然语言处理学习笔记

深度学习与自然语言处理（一）

nltk：python自然语言处理一

自然语言处理NLP（一）

python自然语言处理（一）

自然语言处理(一)NLP概述

初识NLP 自然语言处理（一）

统计自然语言处理基础（一）

自然语言处理（NLP）入门（一）

NLP自然语言处理（一）

机器学习——自然语言处理（一）

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

使用Redis中间件解决商品秒杀活动中出现的超卖问题（使用Java多线程模拟高并发环境）

野指针及c++指针使用注意点

redis 3.0　新特性

(翻译)火狐操作系统javascript API

微信小程序开发入门

mysql数据查询之五子句(where、group by、having、order by和limit)

Codeforces Round #517 Div. 1翻车记

在caffe 中实现Generative Adversarial Nets（二）

企业级漏洞扫描工具

java byte数组与String互转

每日归档

更多

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)