无监督语义相似度 - 代码天地

无监督语义相似度

业界资讯 2020-10-30 03:14:53 阅读次数: 0

没有成对的文本，如何计算语义相似度

１. bert方面的坑

bert计算出来句子之间的相似度很接近，在我的数据集上finetune之后稍微好一点点，用的是cls的输出直接作为句子的向量，然后计算cosine，结果有点翻车，主要问题在：

句子之间的距离都很近
句子的长短也会影响，相同长度的句子之间距离更接近。针对这个问题，我有尝试把每个字的字向量加起来处以字符数量，但是发现还是一样

后来，看了一个知乎的回答，原文：https://www.zhihu.com/question/354129879

用字向量的pool，效果确实比cls的输出好一些。

此外，cosine只是计算两个向量之间角度的距离大小，如果想换成欧式也行，但其实差距不大。

２.cilin的坑

词林的效果也不好，还不如ｂｅｒｔ，不知道是不是方法有问题，我的方法是：计算句子Ａ和句子Ｂ中每个词两两之间的距离，然后取距离最近的词，其实就是词移距离了，只不过词之间的距离是用cilin计算的。

这个翻车原因有两个：

cilin里面的词语还是有限的。
只计算词语之间是否相似，词语的重要性。就算是乘上tfidf权重，结果也不好。分析原因有：分词会引入噪声，cilin词典里面也缺少重要的词语，tfidf还好，但整体来看，这个方法是不行的。

用tfidf过滤权重不重要的词，对于短文本来说，能过滤的很少

猜你喜欢

转载自blog.csdn.net/qq_20849045/article/details/109333157

无监督语义相似度

NLP实践——基于SBERT的语义搜索，语义相似度计算，SimCSE、GenQ等无监督训练

文本相似度算法(无监督算法)

[文本语义相似] 基于simhash相似度

[文本语义相似] 基于Jaccard相似度

语义相似度(实践篇)

语义相似度(理论篇)

BERT可以使用无监督的预训练模型做文本相似度任务吗？

原创：语义相似度(理论篇)

语义相似度算法总结1

问题对语义相似度计算-参赛总结

文本匹配（语义相似度）综述

语义相似度匹配（二）—— ESIM模型

语义相似度匹配（一）—— DSSM模型

[文本语义相似] 基于编辑距离相似度

语义处理工具：语义版Jaccard相似度

知识图谱的语义相似度计算框架Sematch实践

自然语言语义相似度计算方法

基于深度学习问答系统中的语义相似度计算

深度学习解决NLP问题：语义相似度计算

NLP语义相似度计算的两大类方法

【python 走进NLP】标签别名语义相似度匹配算法

【python 走进NLP】文本语义相似度合并算法

CNN在NLP领域的应用-文本语义相似度计算

BERT实现QA中的问句语义相似度计算

使用Python计算图像与文字的语义相似度

融合用户偏好与语义相似度的推荐算法

语义检索系统【一】：基于无监督预训练语义索引召回：SimCSE、Diffcse

有监督&无监督

无监督学习的集成方法：相似性矩阵的聚类

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)