面向特定问题的开源算法管理与推荐1(问题描述与工作安排)

2021SC@SDUSC

面向特定问题的开源算法管理与推荐1(问题描述与工作安排)

问题描述

输入

一个文本库,算法描述(主要是中文)

输出

1)对于每个文本x,抽取关键词作为算法的技术特征

2)(高)同时在以此关键词在数据集中进行检索时,能够反映本文x的主旨

约束条件:

Ø 抽取出的关键词与文本内容的相关性(关键词对于当前文本的代表性)

Ø 给出抽取到的关键词合适的次序

Ø 抽取出的关键词在数据集中的特异性(关键词在当前本文的重要性,相对于数据集中其他文本的显著性)

意义:信息抽取,信息检索

应用举例

“这是一个用于彩色图像均衡化的算法。”提取关键词“图像均衡化”。根据关键词对数据库中的算法进行检索,找到满足条件的相关算法。

评价指标

精准率和召回率

精准率和召回率是广泛应用于关键词抽取任务的评价指标,用于衡量关键词抽取模型的准确程度,其中精准率表示算法提取的关键词与人工给定关键词相匹配的个数与算法提取的总关键词数量的比值,召回率则表示算法提取的关键词与人工给定关键词相匹配的个数与人工给出的关键词数量的比值。F1分数表示精确率和召回率的调和平均数,当精准率和召回率两个指标发生冲突时,通常采用F1分数进行综合考量。为了验证关键词提取算法的性能,采用准确率(PR),召回率(RR),F_1值(F_1)作为关键词提取评价指标。准确率、召回率、F_1值计算公式分别如下:
在这里插入图片描述

其中n_m表示表示算法提取的关键词与人工给定关键词交集的个数,n_a为算法提取的总关键词数量,n_u为人工给出的关键词数量。

排名倒数

评估关键词次序的重要程度,即正确关键词在抽取的关键词结果中的排名来评估抽取的性能。Q表示文本实际的关键词的集合,|Q|表示文本实际的关键词的数量,〖rank〗_i表示文本实际对应的第i个关键词在抽取出的关键词集合中的位置。如果实际的关键词在抽取出关键词集合中的位置越靠前,MRR的值就会越大。
在这里插入图片描述

特异性评价指标SN

特异性评价指标SN。评估算法抽取的前topK个关键词在数据集中的特异性,即抽取出的关键词相对于数据集中其他文本的显著性。其中S表示算法抽取出的关键词的集合,|S|表示算法抽取出的关键词的数量,|D|表示文档的总数量,|j∈D|表示包含关键词j的文档数量。

在这里插入图片描述

数据集

我们计划利用网络爬虫技术对百度学术进行爬取,爬取论文的题目、摘要、所属期刊、细分领域。爬取时的难点在于百度文库可能存在的反爬机制,同时我们应关注爬取内容覆盖学科领域的多少。

表1数据集描述表
数据集 文档总数 文档平均长度 文档平均关键字个数 关键词在文中存在比
Baiduxueshu

模型对比

实验中所使用的对比模型如下:

PositionRank

该模型是一个用于从学术文档中提取关键词的无监督模型,论文核心就是在词的权值迭代的时候融入位置信息,融入方式有两种,一种是该词出现的所有位置(Fullmode)都融入,另外一种是该词出现的第一个位置(FP)进行融入

论文:PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

代码:https://github.com.cnpmjs.org/corinaflorescu/PositionRank

Embedrank

先利用POS tags抽取候选短语,然后计算候选短语的embedding和文章embedding的cosine similarity,利用相似度将候选短语排序,得到关键的短语。

论文:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings

代码:https://github.com/swisscom/ai-research-keyphrase-extraction

KPE

该模型在多部分图结构中对主题信息进行编码,模型在单个图中表示候选关键词和主题,并利用它们的相互加强关系来提高候选排名,引入了一种新机制,将关键词选择偏好纳入模型。

论文:Unsupervised Keyphrase Extraction with Multipartite Graphs

代码:https://github.com/boudinfl/pke

ELSKE

可以有效地提取一组候选关键词,而无需依赖计算成本更高的技术,例如词性标注。它根据PF-IDF 方案对这些候选关键词进行评分和排名,PF-IDF 方案是流行的 TF-IDF方案的调整版本,适用于分析较大的文档或文档集合。

论文:ELSKE: Efficient Large-Scale Keyphrase Extraction

代码:https://github.com/johpro/elske

补充完整下面表格:

在这里插入图片描述

小组成员分工

第一阶段我们四人每人负责一个模型,主要包括通过论文了解模型的特点、创新性,同时在我们自己的数据集上复现对应的模型,记录模型在该数据集上的性能表现。

工作安排

本工作计划为4-9周的工作安排,期间可能存在调整,后续工作将在本阶段的工作完成后与指导老师沟通确定。

4-6周

解读论文,了解相关领域的最新进展,了解该领域的技术方向。理解该论文的核心技术要点,指出论文方法的创新性。

7-8周

在论文数据集上跑通复现代码,把握代码的结构,理解核心方法,思考数据集替换的方法。

9周

在团队数据集上跑通代码,记录在团队数据集上的性能表现并和其他成员负责的模型进行性能对比。

おすすめ

転載: blog.csdn.net/Simonsdu/article/details/120537131