Sequence Models(Week2)---Natural Language Processing & Word Embeddings - 代码天地

Sequence Models(Week2)---Natural Language Processing & Word Embeddings

其他 2019-03-04 11:39:19 阅读次数: 0

(一)Introduction to word embeddings

一、Word Representation

用近300个特征值组成的向量来表示man这个单词

词嵌入是NLP中最重要的思想之一

二、Using word embeddings

词嵌入可以使得学习算法的推广性增强，如XXX is orange farmer识别出了XXX是人名，那么可以更好地识别出XXX is an apple farmer中XXX也是农民，因为orange与apple具有相同的相似性

这样的原因是学习词嵌入的算法可以检查大量的文本主体

下载网上已经训练好的词嵌入

encoding与embedding的含义基本一致，其实就是编码的意思

三、Properties of word embeddings

词嵌入也是词编码的属性，有助于推理类比

词嵌入可以应用于类比推理

四、Embedding matrix

(二)Learning word embeddings

五、Word2Vec

在上下文中选的词与目标词之间并非临近的关系

六、Negative Sampling

如何选取训练集？

K的取值，即选择负样本的数目，如果数据集较小，选取5~20即可；数据集较大，k取2~5

每次只训练5个逻辑回归单元，则包含K+1个样本，K个负样本+1个正样本，计算成本较低

训练K+1个二元分类问题，在每次迭代中会稍微容易些

启发式观察英文文本中的分布，到从均匀分布中采样，取观察到词频的3/4次方

这里也有事先训练过的词向量，下载其他人的词向量并作为出发点

七、GloVe word vectors

从特征化的视角出发，训练词向量，但出现的问题是，词嵌入矩阵的单个元素不一定是可以解释的

（三）Applycations using word embedding

一、Sentiment Classification

情感分类的一个挑战是可能缺乏一个很大的标签训练集，但使用词嵌入之后可以使用一个中等大小的标签集即可

训练集的数据可能在1万到10万之间，

方法一：

把句子中的每一个词用One-hot X 嵌入词矩阵（在更大的词汇量中已训练好）=词嵌入向量

再将句子中每个词的词嵌入向量相加求平均值，再输入softmax函数中，进行每类的预测

该方法对或长或短的评论均有效果，但存在的问题是忽视了单词之间的顺序

方法二：使用RNN

把每个词由one-hot变为词嵌入向量后，把每个词输入到RNN中

二、Debiasing word embeddings

在算法中消除不希望看到的偏见，如性别偏见、种族偏见等，讨论减少或消除在词嵌入时这些形式的偏差

猜你喜欢

转载自blog.csdn.net/weixin_38527856/article/details/87476875

Sequence Models(Week2)---Natural Language Processing & Word Embeddings

Coursera, Deep Learning 5, Sequence Models, week2, Natural Language Processing & Word Embeddings

020 Natural Language Processing & Word Embeddings

[序列模型] Natural Language Processing & Word Embeddings习题解析

第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）

coursera 吴恩达 -- 第五课 RNN ：第二周 Natural Language Processing & Word Embeddings

吴恩达DL lesson5 第二周第五门课第二周自然语言处理与词嵌入（Natural Language Processing and Word Embeddings）

Note - Sequence models - NLP and Word Embeddings (deeplearning.ai)

【Kaggle微课程】Natural Language Processing - 3. Word Vectors

转：Language Models as Knowledge Embeddings

ELMo（Embeddings from Language Models） --学习笔记

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

Pre-trained Models for Natural Language Processing: A Survey

Stanford:Natural Language Processing with Deep Learning

OReilly Natural Language Processing with PyTorch 2019.2 epub

Manning Natural Language Processing in Action 2019.3

图书分享 -《Natural Language Processing with Python》

Natural Language Processing in Tensorflow- Quiz 3

Book - Natural Language Processing with Python (latest version)

Natural language Processing in tensorflow quizs on Coursera

Evaluaion mark in natural language processing field//updating

Leveraging Natural Language Processing to Generate Pers

(9) Natural Language Processing with Pytorch: An Introd

Deep Learning for Natural Language Processing in Python

【NLP-13】ELMo模型（Embeddings from Language Models）

【Kaggle微课程】Natural Language Processing - 2.Text Classification

Exercises - Natural Language Processing with Python (Chapter2)

Note - Natural Language Processing with Python (Chapter2)

deeplearning.ai 序列模型 Week 2 NLP & Word Embeddings

Sequence Models Week 1 Character level language model - Dinosaurus land

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)