基于神经网络的文本相似度计算【医疗大数据】

版权声明:我是南七小僧,微信: to_my_love ,欢迎交流思想碰撞。 https://blog.csdn.net/qq_25439417/article/details/83718288

任务描述

问句匹配是自然语言处理的最基本任务之一,是自动问答,聊天机器人,信息检索,机器翻译等各种自然语言处理任务基础。问句匹配的主要目的是判断两个问句之间的语义是否等价。判别标准主要根据主句(即提问者)所蕴含的意图来判断两个语句是否等价,而不直接判断两个语句是否表达相同的语义。因此,其核心是语句的意图匹配。由于来源于真实问答语料库,该任务更加接近于智能医疗助手等自然语言处理任务的实际需求。

本次评测任务的主要目标是针对中文的真实患者健康咨询语料,进行问句意图匹配。给定两个语句,要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题,并经过了筛选和人工的意图匹配标注。平安云将为报名的队伍提供GPU的训练环境。

数据说明

本次测评数据主要来自于人工构建与标注。

训练集和验证集

训练集包含20000条左右标注好的数据(经过脱敏处理,包含标点符号),供参赛人员进行训练和测试。测试集包含10000条左右无标签的数据(经过脱敏处理,包含标点符号)。选手需要对测试集数据的标签进行预测并提交。测试集数据作为AB榜的评测依据。

数据格式

给参赛选手的文件由question_id.csv,word_embedding,char_embedding,train.csv,test.csv五个文件构成.question_id.csv为所有脱敏后的问句和其ID,有分词和分字两种形式(包含标点符号).word_embedding和char_embedding分别为预训练好的词和字的嵌入(经过脱敏处理,由一个超过200万条医疗问句构成的语料库训练而成)。

train.csv和test.csv分别为训练集和测试集,包含若干对由问题ID组成的一对。以标签表示问句之间的语义是否相同。若相同,标为1,若不相同,标为0.其中,训练集标签已知,测试集标签未知。

示例

问句1:糖尿病吃什么?

问句2:糖尿病的食谱?

标签:1

问句1:糖尿病的危害?

问句2:糖尿病肾病的危害?

标签:0

每个问句均有其唯一的ID,选手最终按照以下格式提交评测文件:

网络图:

训练算法结果:

猜你喜欢

转载自blog.csdn.net/qq_25439417/article/details/83718288