句子相似度_tf/idf - 代码天地

句子相似度_tf/idf

其他 2018-11-19 11:04:41 阅读次数: 0

import math
from math import isnan
import pandas as pd
#结巴分词，切开之后，有分隔符
def jieba_function(sent):
    import jieba
    sent1 = jieba.cut(sent)
    s = []
    for each in sent1:
        s.append(each)
    return ' '.join(str(i) for i in s)
def count_cos_similarity(vec_1, vec_2):
    if len(vec_1) != len(vec_2):
        return 0

    s = sum(vec_1[i] * vec_2[i] for i in range(len(vec_2)))
    den1 = math.sqrt(sum([pow(number, 2) for number in vec_1]))
    den2 = math.sqrt(sum([pow(number, 2) for number in vec_2]))
    return s / (den1 * den2)
#计算文本向量，传入文本,接受的是字符串
def tf(sent1, sent2):
    from sklearn.feature_extraction.text import CountVectorizer

    sent1 = jieba_function(sent1)
    sent2 = jieba_function(sent2)

    count_vec = CountVectorizer()

    sentences = [sent1, sent2]
    print('sentences',sentences)
    print('vector',count_vec.fit_transform(sentences).toarray())## 输出特征向量化后的表示
    print('cut_word',count_vec.get_feature_names())#输出的是切分的词， 输出向量各个维度的特征含义

    #转换成维度相同的
    vec_1 = count_vec.fit_transform(sentences).toarray()[0]
    vec_2 = count_vec.fit_transform(sentences).toarray()[1]
    similarity=count_cos_similarity(vec_1, vec_2)
    if isnan(similarity):
        similarity=0.0

    print('count_cos_similarity',similarity)
def tfidf(sent1, sent2):
    from sklearn.feature_extraction.text import TfidfVectorizer

    sent1 = jieba_function(sent1)
    sent2 = jieba_function(sent2)

    tfidf_vec = TfidfVectorizer()

    sentences = [sent1, sent2]
    vec_1 = tfidf_vec.fit_transform(sentences).toarray()[0]
    vec_2 = tfidf_vec.fit_transform(sentences).toarray()[1]
    similarity=count_cos_similarity(vec_1, vec_2)
    if isnan(similarity):
        similarity=0.0
    return similarity


if __name__=='__main__':

    sent1 = '我喜欢看电视也喜欢看电影，'
    sent2 = '我不喜欢看电视也不喜欢看电影'
    print('<<<<tf<<<<<<<')
    tf(sent1, sent2)
    print('<<<<tfidf<<<<<<<')
    tfidf(sent1, sent2)

猜你喜欢

转载自www.cnblogs.com/hapyygril/p/9981864.html

句子相似度_tf/idf

使用 TF-IDF 加权的空间向量模型实现句子相似度计算

NLP文本相似度(TF-IDF)

NLP相似度之tf-idf计算

python文本相似度分析tf-idf

Spark实现TF-IDF——文本相似度计算

python文本相似度分析：TF-IDF方法

句子相似度的计算

pytorch 句子相似度

基于Lucene、TF-IDF、余弦相似性实现长文本相似度检测

TF-IDF算法和余弦相似度算法计算文本相似度（纯手撕）

TF-idf算法进行文本相似度分析代码

学习笔记--NLP文本相似度之TF-IDF

使用spark TF-IDF特征计算文章间相似度

TF-IDF计算相似度为什么要对稀疏向量建立索引？

NLP(5): 停用词，文本的表示，文本的相似度，tf-idf，词向量

句子相似度实现算法

句子相似度计算模型

TF-IDF与余弦相似性

从零开始的文本TF-IDF向量构造和基于余弦相似度的文本分类

解析TF-IDF算法原理：关键词提取，自动摘要，文本相似度计算

【python 走进NLP】句子相似度计算--余弦相似度

tf计算余弦相似度

基于句子相似度的FAQ问答系统

句子相似度比较的归一化

句子相似度计算方法

基于熵的方法计算句子相似度

自然语言处理——句子的相似度

TF-IDF及文本相似性度量

TF-IDF及相关知识（余弦相似性）

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)