基于神经网络的文本相似度计算【医疗大数据】

任务描述

问句匹配是自然语言处理的最基本任务之一，是自动问答，聊天机器人，信息检索，机器翻译等各种自然语言处理任务基础。问句匹配的主要目的是判断两个问句之间的语义是否等价。判别标准主要根据主句（即提问者）所蕴含的意图来判断两个语句是否等价，而不直接判断两个语句是否表达相同的语义。因此，其核心是语句的意图匹配。由于来源于真实问答语料库，该任务更加接近于智能医疗助手等自然语言处理任务的实际需求。

本次评测任务的主要目标是针对中文的真实患者健康咨询语料，进行问句意图匹配。给定两个语句，要求判定两者意图是否相同或者相近。所有语料来自互联网上患者真实的问题，并经过了筛选和人工的意图匹配标注。平安云将为报名的队伍提供GPU的训练环境。

数据说明

本次测评数据主要来自于人工构建与标注。

训练集和验证集

训练集包含20000条左右标注好的数据（经过脱敏处理，包含标点符号），供参赛人员进行训练和测试。测试集包含10000条左右无标签的数据（经过脱敏处理，包含标点符号）。选手需要对测试集数据的标签进行预测并提交。测试集数据作为AB榜的评测依据。

数据格式

给参赛选手的文件由question_id.csv，word_embedding，char_embedding，train.csv，test.csv五个文件构成.question_id.csv为所有脱敏后的问句和其ID，有分词和分字两种形式（包含标点符号）.word_embedding和char_embedding分别为预训练好的词和字的嵌入（经过脱敏处理，由一个超过200万条医疗问句构成的语料库训练而成）。

train.csv和test.csv分别为训练集和测试集，包含若干对由问题ID组成的一对。以标签表示问句之间的语义是否相同。若相同，标为1，若不相同，标为0.其中，训练集标签已知，测试集标签未知。

示例

问句1：糖尿病吃什么？

问句2：糖尿病的食谱？

标签：1

问句1：糖尿病的危害？

问句2：糖尿病肾病的危害？

标签：0

每个问句均有其唯一的ID，选手最终按照以下格式提交评测文件：