论文阅读：《a simple but tough-to-beat baseline for sentence embeddings》 - 代码天地

论文阅读：《a simple but tough-to-beat baseline for sentence embeddings》

其他 2018-10-31 06:51:24 阅读次数: 0

https://openreview.net/pdf?id=SyK00v5xx
原文：http://www.hankcs.com/nlp/cs224n-sentence-embeddings.html

句子Embedding动机

虽然这节课一直在讲词向量可以编码词的意思，但自然语言处理真正关心的是整个句子的意思。

hankcs.com 2017-06-07 下午4.07.53.png

如果我们能够拿到句子的向量表示，则可以方便地用内积计算相似度：

hankcs.com 2017-06-07 下午4.08.24.png

还可以在这些句子向量之上构建分类器做情感分析：

hankcs.com 2017-06-07 下午4.08.42.png

已有方法

具体怎么由词向量到句向量呢？有很多种方法，比如词袋模型中简单地线性运算：

hankcs.com 2017-06-07 下午4.09.14.png

在后面的课程中，将会用recurrent neural network、recursive neural network，CNN来做同样的事情。

hankcs.com 2017-06-07 下午4.09.29.png

新方法

但今天要介绍的这篇普林斯顿大学的论文却剑走偏锋，采用了一种简单的无监督方法。这种方法简单到只有两步：

hankcs.com 2017-06-07 下午4.09.53.png

第一步，对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数$\alpha$除以$\alpha$与该词语频率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量。

然后计算语料库所有句向量构成的矩阵的第一个主成分$u$，让每个句向量减去它在$u$上的投影（类似PCA）。其中，一个向量$v$在另一个向量$u$上的投影定义如下：

$$\text{Proj}_u v=\frac{u u^Tv}{\Vert u \Vert^2}$$

概率论解释

其原理是，给定上下文向量，一个词的出现概率由两项决定：作为平滑项的词频，以及上下文：

hankcs.com 2017-06-07 下午4.10.26.png

其中第二项的意思是，有一个平滑变动的上下文随机地发射单词。

效果

hankcs.com 2017-06-07 下午4.13.14.png

在句子相似度任务上超过平均水平，甚至超过部分复杂的模型。在句子分类上效果也很明显，甚至是最好成绩。

猜你喜欢

转载自blog.csdn.net/u011239443/article/details/83349071

论文阅读：《a simple but tough-to-beat baseline for sentence embeddings》

文献阅读笔记 # SimCSE: Simple Contrastive Learning of Sentence Embeddings

Simple is not Easy: A Simple Strong Baseline for TextVQA and TextCaps —— 论文阅读笔记

论文阅读 | Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

论文解读：PromptBERT: Improving BERT Sentence Embeddings with Prompts

UNE BASE SIMPLE MAIS PARFAITE POUR SENTENCE EMBEDDINGS(一个简单但很难超越的Sentence Embedding基线方法)

文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

OVRL-V2: A simple state-of-art baseline for IMAGENAV and OBJECTNAV 论文阅读

文献阅读笔记 # Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation

论文笔记——FairMOT：A Simple Baseline for Multi-Object Tracking

【论文阅读】Topical Word Embeddings

Deep Fragment Embeddings for Bidirectional Image Sentence Mapping

SCD Self-Contrastive Decorrelation for Sentence Embeddings

SGPT: GPT Sentence Embeddings for Semantic Search

Complex Embeddings for Simple Link Prediction

论文阅读 DEFT: Detection Embeddings for Tracking

论文笔记Baseline Needs More Love:On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms

【论文翻译】A simple yet effective baseline for 3d human pose estimation

Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Seg论文复现

『论文阅读』：Convolutional Neural Networks for Sentence Classification

[论文阅读笔记68]Sentence-BERT

【论文阅读】Realistic Datasets and A Strong Baseline

论文阅读笔记：《Contextual String Embeddings for Sequence Labeling》

【论文阅读】A Correlated Topic Model Using Word Embeddings

An Empirical Study on Leveraging Position Embeddings for TOWE 论文阅读笔记

【论文】A neural attention model for abstractive sentence summarization 阅读笔记

2019论文阅读3:Actor and Action Video Segmentation from a Sentence

《Conditional Network Embeddings》论文分析

论文阅读：A New Meta-Baseline for Few-Shot Learning

[句边界检测/标点符号预测]A Bidirectional LSTM Approach with Word Embeddings for Sentence Boundary Detection

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)