【python 走进NLP】标签别名语义相似度匹配算法 - 代码天地

【python 走进NLP】标签别名语义相似度匹配算法

其他 2018-09-22 16:58:41 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u013421629/article/details/82501083

标签别名语义相似度匹配算法：
这里写图片描述

# -*- encoding=utf-8 -*-

import pandas as pd
import numpy as np
import time
time1=time.time()


#定义一个标签有别名的合并函数
def combine_tag_name_alis(data1,data2):
    """
    :param data1: 别名集
    :param data2:标签集
    :return: 合并后的结果集
    """
    # 筛选数据，找到有别名的标签
    data3 = data1[data1['alias'].isin(data2['key'])]
    data4=data2[~data2['key'].isin(data3['alias'])]

    #语义相似标签去重
    name1= list(set(data3['name']))
    name2=list(set(data4['key']))
    name3=name1+name2
    name4=list(set(name3))


    return name4


if __name__ == '__main__':

    #  读取别名数据集
    data1 = pd.read_excel('C:/Users/xiaohu/Desktop/文本挖掘/标签语义相近发现合并算法/data/kktribe_tag_1.xlsx')

    #  读取标签数据集
    data2=pd.DataFrame({'key':['詹皇','小皇帝','内马尔','世界杯','姆巴佩','詹姆斯','姆巴佩','里奥·梅西','梅西','Lionel Andrés Messi','小老虎','凯文-杜兰特','凯文·杜兰特']})

    #  合并之后的标签集
    name=combine_tag_name_alis(data1,data2)
    print(name)



    time2 = time.time()
    print('总共耗时：' + str(time2 - time1) + 's')

['梅西', '沃尔科特', '姆巴佩', '詹姆斯', '内马尔', '杜兰特', '世界杯']
总共耗时：0.07813286781311035s

Process finished with exit code 0

猜你喜欢

转载自blog.csdn.net/u013421629/article/details/82501083

【python 走进NLP】标签别名语义相似度匹配算法

【python 走进NLP】文本语义相似度合并算法

【python 走进NLP】句子相似度计算--余弦相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】句子相似度封装工具CHlikelihood

【python 走进NLP】文本相似度各种距离计算

【python 走进NLP】AC算法应用

python fuzzywuzzy 模糊匹配，计算相似度

使用Python计算图像与文字的语义相似度

Python bm25短文本分类，相似度识别，BM25算法相似度匹配，疾病相似度匹配gensim实现，bm25算法原理和实现实例

Python opencv 图像相似度匹配之SIFT+FLANN

Python opencv 图像相似度匹配之ORB+KNN

Python opencv 图像相似度匹配之ORB+BF

【script】python字符串相似度匹配

Python相似度评估

python余弦相似度

【java 走进NLP】simhash 算法计算两篇文章相似度

文本匹配（语义相似度）综述

语义相似度匹配（二）—— ESIM模型

语义相似度匹配（一）—— DSSM模型

python+jieba+tfidf算法文本相似度

Python实现的十多种字符相似度算法

python-两个图片相似度算法

【python 走进NLP】hanNLP 简繁拼音转换

python simhash计算相似度

[python]比较文章相似度

Python计算余弦相似度

python计算图片的相似度

Python视频相似度比较

深度学习解决NLP问题：语义相似度计算

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)