陈丹琦重新定义了文本相似性问题,提出C-STS,GPT-4也不能很好解决

陈丹琦的这个工作不错,之前的文本相似度基本只是一个分数,而其实可以分为很多不同视角下的相似情况,这里相当于重新定义了任务。另外,数据构建也是通过模型生成,一切都很方便快捷。最后实验也表明GPT4也时而会出错,这个开拓的方向可以继续深入研究个探讨。

下面站在作者角度具体了解下吧。

c9104b2e2112ec8240c6c42d8aec0daa.png

论文:C-STS: Conditional Semantic Textual Similarity
地址:https://arxiv.org/abs/2305.15093
单位:Princeton、Allen AI等

进NLP群—>加入NLP交流群

语义文本相似性(STS)一直是NLP中的一项基石任务,它测量一对句子之间的相似程度,在信息检索,问答和嵌入方法中得到了应用。

然而,这是一项固有的模棱两可的任务,句子相似性取决于感兴趣的特定方面。

d95a095d294dc12883b96c42c1450d81.png

我们通过提出一项称为条件STSC-STS)的新任务来解决这种歧义,该任务以自然语言阐明的方面(此处为条件)来衡量相似性。

例如,句子“NBA球员投三分球”和“一个人将网球抛向空中发球”之间的相似性对于“球的运动”条件更高(向上)。和较低的“球的大小”(一大一小)。

C-STS具有双重优势:(1)它降低了STS的主观性和模糊性, (2)可以使用不同的条件进行细粒度的相似性评估。

8199e12a73ac7fb9925d1f2de8bdbcda.png
数据的智能构建过程

C-STS 包含来自不同领域的近 20,000 个实例,我们评估了几个最先进的模型,以证明即使是性能最高的微调和上下文学习模型(GPT-4、Flan、SimCSE)也发现它具有挑战性,Spearman 相关分数为 <50。

3422fd5aef396b27d809f2a49bb83484.png c615be6ef407687c81c6201e4549f8d3.png

我们鼓励社区在 C-STS 上评估他们的模型,以提供更全面的语义相似性和自然语言理解视图。

实验与分析

de25c13a4e7641a1ac078361a86bb00d.png 51e8f3a5123237821f00098387b3f09f.png 5fd8a270706a774145d380c966319d95.png fec9358625fef3f5d4997a098a293791.png bf3c93d660ed51835d1067a4cf4dbe52.png

a9fe3db73a8b3a07f38345591596e998.png

进NLP群—>加入NLP交流群

猜你喜欢

转载自blog.csdn.net/qq_27590277/article/details/132074344