陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决 - 代码天地

陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决

业界资讯 2023-08-06 22:09:56 阅读次数: 0

陈丹琦的这个工作不错，之前的文本相似度基本只是一个分数，而其实可以分为很多不同视角下的相似情况，这里相当于重新定义了任务。另外，数据构建也是通过模型生成，一切都很方便快捷。最后实验也表明GPT4也时而会出错，这个开拓的方向可以继续深入研究个探讨。

下面站在作者角度具体了解下吧。

论文：C-STS: Conditional Semantic Textual Similarity
地址：https://arxiv.org/abs/2305.15093
单位：Princeton、Allen AI等

进NLP群—>加入NLP交流群

语义文本相似性（STS）一直是NLP中的一项基石任务，它测量一对句子之间的相似程度，在信息检索，问答和嵌入方法中得到了应用。

然而，这是一项固有的模棱两可的任务，句子相似性取决于感兴趣的特定方面。

我们通过提出一项称为条件STS（C-STS）的新任务来解决这种歧义，该任务以自然语言阐明的方面（此处为条件）来衡量相似性。

例如，句子“NBA球员投三分球”和“一个人将网球抛向空中发球”之间的相似性对于“球的运动”条件更高（向上）。和较低的“球的大小”（一大一小）。

C-STS具有双重优势：（1）它降低了STS的主观性和模糊性，（2）可以使用不同的条件进行细粒度的相似性评估。

数据的智能构建过程

C-STS 包含来自不同领域的近 20，000 个实例，我们评估了几个最先进的模型，以证明即使是性能最高的微调和上下文学习模型（GPT-4、Flan、SimCSE）也发现它具有挑战性，Spearman 相关分数为 <50。

我们鼓励社区在 C-STS 上评估他们的模型，以提供更全面的语义相似性和自然语言理解视图。

实验与分析

进NLP群—>加入NLP交流群

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/132074344

陈丹琦重新定义了文本相似性问题，提出C-STS，GPT-4也不能很好解决

文本相似性做法

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

基因序列相似性问题

TF-IDF及文本相似性度量

[转] 文本相似性算法Simhash原理及实践

文本相似性算法Simhash原理及实践

文本相似性热度统计(python版)

文本相似性的几种方法

文本相似性计算--MinHash和LSH算法

李佳琦：重新定义“消费决策5秒论”

【文本相似度】利用余弦相似性计算句子的相似度

基于神经网络模型的释义识别、语义文本相似性、自然语言推理和问题回答

4.文本相似度

基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

[动态规划]基因序列相似性问题

文本相似度

萌新Learning-简单的文本相似性检测与抄袭判断

文本相似性计算总结（余弦定理，simhash）

NLP11-基于Gensim的文本相似性挖掘[LsiModel]

推荐系统技术之文本相似性计算（三）

推荐系统技术之文本相似性计算（二）

推荐系统技术之文本相似性计算（一）

关于word2vec及文本相似性计算

Simense LSTM 算法，做中文文本相似性判断

文本相似性热度统计算法实现（一）-整句热度统计

文本相似性算法实现（二）-分组及分句热度统计

泛统计理论初探——初探文本相似性计算

机器学习笔记 - 使用预训练词嵌入进行文本相似性分析

基于text2vec的中文文本相似度计算（解决简单对比问题）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)