自然语言处理评测汇总（持续更新）

1、 WSDM Cup 2020（2月份）
2、 TAC相关评测（3月份）
3、 CCKS相关评测（3月份）
4、 NLPCC相关评测（3月份）
5、全国社会媒体处理大会相关评测（3月份）
6、 SemEval（9月份）
7、知乎看山杯（2017—2019）（2020未发布）
8、CCF大数据与计算智能大赛（2020未发布）
9、全国第二届“军事智能机器阅读”挑战赛（2020未发布）
10、待补充……
附录：（评测平台）

二、ChineseGLUE中文语言理解测评基准

1、语料库(CLUECorpus2020)：语言建模、预训练或生成型任务
2、ChineseGLUE的定位 Vision
3、为什么我们需要一个中文任务的基准测试？
4、中文任务的基准测试-内容体系 Contents

1）中文任务的基准测试，覆盖多个不同程度的语言任务
2）公开的排行榜
3）基线模型，包含开始的代码、预训练模型
4）语料库，用于语言建模、预训练或生成型任务

三、命名实体识别（NER）评测

1、简介
2、标签评测
3、实体边界+实体类型

A、完全匹配
B、部分匹配（重叠）

4、评估指标
5、示例

参考文献：

一、评测相关会议

1、 WSDM Cup 2020（2月份）

WSDM（Web Search and Data Mining，读音为Wisdom）是业界公认的高质量学术会议，注重前沿技术在工业界的落地应用，与SIGIR一起被称为信息检索领域的Top2。

Task 1 Microsoft Research - Citation Intent Recognition（Microsoft研究-引文意图识别）
任务一将提供一个论文库（约含80万篇论文），同时提供对论文的描述段落，来自论文中对同类研究的介绍。参赛选手需要为描述段落匹配三篇最相关的论文。

Task 2 4Paradigm - Automated Time Series Regression（4Paradigm-自动时间序列回归）
Task 3 Sichuan Airlines - Flight Delay Discovery and Optimization（四川航空-航班延误的发现与优化）

相关论文：An Effective Approach for Citation Intent Recognition Based on Bert and LightGBM
网站：http://www.wsdm-conference.org/2020/wsdm-cup-2020.php

2、 TAC相关评测（3月份）

Text Analysi Conference，2008-2019，任务发布时间一般是3月份，评测时间一般是下半年7-10月之间，评测语料是英文。

KBP（Knowledge Base Population）知识库(知识图谱)自动生成相关评测，包括**实体链接（entity linking）和槽填充(slot filling)**等，是知识库生成领域比较权威的评测，每年评测内容略有不同，2019年包括三个子任务：

1) Entity Discovery and Linking (EDL)

从自然语言文本中自动发现实体，并连接到知识图谱中。
EDL跟踪的目标是从任何语言中提取对预定义实体类型的提及，并将其链接（消除歧义）到英语知识库（KB）中的实体。

2) Streaming Multimedia Knowledge Base Population (SM-KBP)

考虑从多种数据源中自动抽取结构化信息。
SM-KBP跟踪的目标是开发和评估从各种非结构化中抽取结构化知识元素（KEs）的技术，以便应对嘈杂、冲突和具有欺骗性的信息环境中的事件、情况、以及趋势。

3) Drug-Drug Interaction Extraction from Drug Labels (DDI)

DDI跟踪的目的是测试各种自然语言处理（NLP）方法对结构化产品标签（SPL）文档中有关药品相互作用的信息抽取（IE）性能的影响。

3、 CCKS相关评测（3月份）

China Conference on Knowledge Graph and Semantic Computing，全国知识图谱与语义计算大会，2020年CCKS是由中国中文信息学会语言与知识计算专委会每年举办的全国年度学术会议，将于2020年11月12日至11月15日在南昌召开。每年评测任务都不相同，但都和知识图谱或者数据结构化有关。评测语料是中文。CCKS 2020共设立8个相关主题评测任务，分别是：新冠知识图谱构建与问答、面向中文短文本的实体链指、面向中文电子病历的医疗实体及事件抽取、面向金融领域的小样本跨类迁移事件抽取、面向金融领域的篇章级事件主题与要素抽取、基于本体的金融知识图谱自动化构建技术评测、基于标题的大规模商品实体检索以及面向试验鉴定的命名实体识别。

任务一：新冠知识图谱构建与问答

受限于非结构化文本和结构化知识之间的巨大差异，自动化构造知识图谱以及利用知识图谱支持上层应用仍存在诸多挑战。时值2020年新型冠状病毒疫情爆发，在OpenKG总体组织和协调下，部分相关企业院校使用自动化的技术，以新型冠状病毒为核心构建了包括新冠百科、健康、防控等多个高质量的知识图谱，并于此针对知识图谱构建的关键技术及其核心应用。

本任务包括四个子任务：1）新冠百科知识图谱类型推断：围绕新冠百科知识图谱构建中的实体类型推断展开。评测从实体百科页面出发，从给定的数据中推断相关实体的类型。2）新冠概念图谱的上下位关系预测：针对传统知识图谱对实体的概念类别体系定义有限的问题，动态的获取实体的概念类别。3）新冠科研抗病毒药物图谱的链接预测：基于抗病毒药物图谱进行关系预测，如药物和病毒的靶向作用、蛋白间的交互作用等。评测依据抗病毒药物图谱模式（Schema）和知识图谱的实体、实体属性、实体之间的关系，预测新的两个实体的关系。4）新冠百科知识图谱问答评测：本次知识图谱问答任务是在CCKS上举办的第三届，在OpenKG上的新冠开放知识图谱基础上，以新型冠状病毒为切入点悉心构造了一定规模的针对健康、医药、疾病防控等特定主旨的问答数据。

任务二：面向中文短文本的实体链指

本评测任务围绕实体链指技术，结合其对应的AI智能应用需求，在CCKS 2019面向中文短文本的实体链指任务的基础上进行了拓展与改进，主要改进包括以下几部分：
（1）去掉实体识别，专注于中文短文本场景下的多歧义实体消歧技术；
（2）增加对新实体（NIL实体）的上位概念类型判断；
（3）对待标注文本数据调整，增加多模任务场景下的文本源，同时调整了多歧义实体比例。

面向中文短文本的实体链指，简称EL（Entity Linking）。即对于给定的一个中文短文本（如搜索Query、微博、对话内容、文章/视频/图片的标题等），EL将其中的实体与给定知识库中对应的实体进行关联。针对中文短文本的实体链指存在很大的挑战，主要原因如下：
（1）口语化严重，导致实体歧义消解困难；
（2）短文本上下文语境不丰富，须对上下文语境进行精准理解；
（3）相比英文，中文由于语言自身的特点，在短文本的链指问题上更有挑战。

任务三：面向中文电子病历的医疗实体及事件抽取

本任务是CCKS围绕中文电子病历语义化开展的系列评测的一个延续，在CCKS 2017，2018, 2019相关评测任务的基础上进行了延伸和拓展。

本任务包括两个子任务：（1） 医疗命名实体识别：于给定的一组电子病历纯文本文档，识别并抽取出与医学临床相关的实体提及（entity mention），并将它们归类到预定义类别（pre-defined categories），比如疾病、治疗、检查检验等。（2） 医疗事件抽取：本任务为中文病历医疗事件抽取任务，即给定主实体为肿瘤的电子病历文本数据，定义肿瘤事件的若干属性，如肿瘤大小，肿瘤原发部位等，识别并抽取事件及属性，进行文本结构化。

任务四：面向金融领域的小样本跨类迁移事件抽取

在金融领域，事件抽取是一项十分重要的任务，也是自然语言处理领域一项比较复杂的任务，而小样本下的事件抽取模型在落地应用中也极为需要。本任务需要从金融领域新闻资讯句子中，抽取事件知识（包括事件类型、触发词和事件元素），并将大样本下训练的模型跨类迁移到小样本的其他事件类型上。其中，事件类型分为两类，初始事件类型限定为：质押、股份股权转让、投资、起诉和高管减持，需要迁移的事件类型为：收购、担保、中标、签署合同和判决，每个事件类型都有其对应的事件框架，需要抽取出每个事件对应的事件元素。即给出一段句子级新闻资讯文本，针对该文本需要判断其所属的事件类型，抽取该事件的各个事件元素。

任务五：面向金融领域的篇章级事件主题与要素抽取

“事件抽取”是舆情监控领域和金融领域的重要任务之一，“事件”在金融领域是投资分析，资产管理的重要决策参考；事件也是知识图谱的重要组成部分，事件抽取是进行图谱推理、事件分析的必要过程。

本次评测任务的文本范围包括互联网上的新闻文本，上市公司发布的公告文本（PDF文档已转成无结构化的文本内容）。

本次评测任务的事件类型包括：财务造假、偿付能力不足、高层失联/去世、企业破产、重大资损、重大赔付、重大事故、股权冻结、股权质押、增持、减持等。

本次评测包括两个子任务：1）事件主体抽取：旨在从文本中抽取事件类型和对应的事件主体。即给定文本T，抽取T中所有的事件类型集合S，对于S中的每个事件类型s，从文本T中抽取s的事件主体。其中各事件类型的主体实体类型为公司名称或人名或机构名称。2）篇章事件要素抽取：旨在从文本中抽取事件类型和对应的事件要素。即给定文本T，抽取T中所有的事件类型集合S，对于S中的每个事件类型s，从文本T中抽取s的事件要素。

任务六：基于本体的金融知识图谱自动化构建技术评测

金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是由专业人员撰写，对宏观、行业和公司的数据信息搜集全面、研究深入，质量高，内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识，是构建行业知识图谱非常关键的数据来源。另一方面，由于研报本身所容纳的数据与知识涉及面广泛，专业知识众多，不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重，解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。

本评测任务参考TAC KBP中的Cold Start评测任务的方案，围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式（Schema）和少量的种子知识图谱开始，从非结构化的文本数据中构建知识图谱。其中图谱模式包括10种实体类型，如机构、产品、业务、风险等；19个实体间的关系，如(机构，生产销售，产品)、(机构，投资，机构)等；以及若干实体类型带有属性，如（机构，英文名）、（研报，评级）等。在给定图谱模式和种子知识图谱的条件下，评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值，实现金融知识图谱的自动化构建。所构建的图谱在大金融行业、监管部门、政府、行业研究机构和行业公司等应用非常广泛，如风险监测、智能投研、智能监管、智能风控等，具有巨大的学术价值和产业价值。

评测本身不限制各参赛队伍使用的模型、算法和技术。希望各参赛队伍发挥聪明才智，构建各类无监督、弱监督、远程监督、半监督等系统，迭代的实现知识图谱的自动化构建，共同促进知识图谱技术的进步。

任务七：基于标题的大规模商品实体检索

本评测任务为基于标题的大规模商品实体检索。即对于给定的一个商品标题，参赛系统需要匹配到该标题在给定商品库中的对应商品实体。基于标题的大规模商品实体检索存在的挑战如下：
（1）输入文本中可能无法识别出实体指代词；
（2）商品标题中存在很多变异指代，没有给定的指代映射表；
（3）商品标题一般较短，上下文语境不丰富，须对上下文语境进行精准理解。

任务八：面向试验鉴定的命名实体识别

军事装备试验鉴定是指通过规范化的组织形式和试验活动，对被试对象进行全面考核并作出评价结论的国家最高检验行为，涵盖方法、技术、器件、武器系统、平台系统、体系、训练演习等领域，涉及面广、专业性强。本任务以命名实体识别任务为切入点，逐步开展这方面的工作，以期通过评测的形式，促进交流、掌握基线、提升技术水平，遴选优秀技术为相关项目建设提供参考，共同推动试验鉴定领域大数据建设。

4、 NLPCC相关评测（3月份）

Natural Language Processing and Chinese Computing，NLPCC从2012年开始举办，至今已成功举办9届，NLPCC2020共举办三个任务的开放评测，包括：中文轻量级预训练语言模型能力评测、多方面多类别情感分析评测和自动信息抽取评测等三个评测任务。下面将逐一对每个任务进行概要介绍，详细的任务说明参见评测指导手册。

任务一：中文轻量级预训练语言模型能力评测 (Light pre-training Chinese Language model for NLP task)

这个任务的目标是训练一个和正常大小的语言模型效果相似的轻量级的语言模型。每个提交上来的模型都会在多个不同的下游NLP任务上评估性能。我们将会综合考虑模型参数数量，模型准确率以及模型推理时间，这些将一起作为模型的评估标准。

任务二：多方面多类别情感分析 (Multi-Aspect-based Multi-Sentiment Analysis)

在现有的方面级别情感分析（ABSA）数据集中，大多数句子只包含一个方面或者多个具有相同情感极性的方面，这样就使得方面级别情感分析任务可能退化成句子级别情感分析。在NLPCC 2020中，我们提出了一个“多方面多情感”数据集（MAMS），其中每个句子包含两个及以上的方面，并且表达了不同的情感极性。本评测包含两个子任务：（1）aspect-term 情感分析（ATSA），其目标是判别句子中给定的aspect-term所表达的情感极性；（2）aspect-category情感分析（ACSA），其目标是判别预先定义好的aspect-category所包含的情感极性。

任务三：自动信息抽取 (Auto Information Extraction)

实体抽取是语言智能的核心基础任务之一，非常多的下游任务都有信息结构化的需求。实体抽取领域的绝大多数研究都是基于数据充足的假设下研究算法来准确的提取出目标类别实体。然而，实体信息的概念是有层级的，而且难以穷举，这就导致没有提供通用标注数据的可能。只有少量共需的实体类别可以通过通用的数据来建立模型，其余的实体类型只能使用者按需标注。

本次评测任务意在考虑噪音标注以及不全标注信息的情况下来构造信息抽取系统。当给定实体类别，实体的一个列表，还有大量未标注语料时，我们如何设计改进算法来构建一个信息抽取系统。这个假设是非常符合工业界实际需求的，抽取的目标繁杂，而只要相关的部分实体列表和待抽取的语料，如何投入很少的人力来构建系统是一个非常以挑战且有意义的研究方向。

5、全国社会媒体处理大会相关评测（3月份）

全国社会媒体处理大会创办于2012年，每年举办一次，现已成为社会媒体处理的重要学术活动。第九届全国社会媒体处理大会（SMP 2020）由中国中文信息学会社会媒体处理专委会主办，浙江大学承办，将于2020年9月4-6日在浙江杭州召开。

SMP 2020欢迎社会媒体相关方面的原创研究和应用的报告，鼓励学科交叉、文理交融，主题包括但不限于以下内容:

计算社会学与传播学

社交网络分析及用户建模

网络表示学习、图神经网络理论与应用

面向社会媒体的自然语言处理

社会媒体挖掘和预测

社会媒体信息可视化

社会媒体舆情分析

社会影响力建模与预测

社会媒体网络信息传播

社会媒体安全和隐私保护

社会媒体营销与品牌传播

众包计算等社会计算模式

疫情防控与分析

（1）机器人群聊比赛（3月份）

人机对话技术是人工智能领域的一个重要研究方向，从手机智能助手，到闲聊陪护型聊天机器人，再到各种面向场景的任务型对话系统平台和智能家居，人机对话系统渐渐融入人类社会的日常运行中，促进了将来人机共融社会的发展。然而，目前的人机对话系统在主导对话的能力和整体性能的评价方面存在巨大的挑战。

任务描述：在机器人群聊场景中，已知群聊主题和历史消息记录，要求生成符合群聊主题和上下文逻辑的回复。同时，所生成的回复需要流畅且与群聊对话主题相关。

（2）SMP2020中文人机对话技术评测（ECDT）（5月份）

在本届SMP会议上，我们继续举办中文人机对话技术评测（ECDT）。近年来，人机对话技术受到了学术界和产业界的广泛关注。学术上，人机对话是人机交互最自然的方式之一，其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展；产业上，众多产业界巨头相继推出了人机对话技术相关产品，如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等，并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。

评测任务概述：本届人机对话技术评测主要包括两个任务，参赛者可以选择参加任意一个任务或全部任务。

任务1：小样本对话语言理解技术评测
【背景介绍】
本次评测中，我们着眼于任务型对话系统中对话语言理解任务（SLU，Spoken Language Understanding）的小样本学习问题。对话语言理解是任务型对话系统的关键组成模块，它负责将用户输入的自然语言转化为结构化的语义框架（Semantic Frame），为后续的对话管理模块和回复生成模块提供支持。任务型对话频繁面临新的需求和领域，而SLU模块针对不同领域的标注规范往往差异较大，使得SLU模块经常面临数据不足的严峻考验。综上，本次评测既有开拓自然语言下小样本问题的研究意义，同时也兼有切实的实际应用意义。

【任务描述】
对话语言理解SLU（Spoken Language Understanding）是任务型对话系统的关键组成模块，它把用户的自然语言输入（Utterance）转化为结构化信息（Semantic Frame）以为后续的对话状态管理和回复生成提供支持。其中Semantic Frame包括用户意图（Intent）和语义槽（Slot）。

任务2：知识驱动的多轮对话竞赛
【背景介绍】
在人机对话系统领域，尽管对话生成的任务得到了广泛的研究，但是对于驱动对话生成的知识的建模却由于缺少数据支持亟待研究。如可以在多轮人机对话中有效的对知识的交互进行建模，则可以极大地提升人机对话系统的逻辑性，信息量，可解释性等智能化程度，从而带来更好的用户体验。
【任务描述】
在对话场景下，已知对话上下文和所有知识图谱信息，要求生成符合知识图谱信息与上下文逻辑的对话回复。

（3）SMP2020微博情绪分类技术评测（SMP2020-EWECT）（5月份）

在本届SMP会议上，我们将举办微博情绪分类技术评测。情感分析技术一直是自然语言处理领域研究的重点内容之一。2020年，新冠肺炎疫情成为了全国人民关注的焦点，众多用户针对此次疫情在新浪微博等社交媒体平台上发表自己的看法，蕴含了非常丰富的情感信息。基于自然语言处理技术自动识别社交媒体文本中的情绪信息，可以帮助政府了解网民对各个事件的态度，及时发现人民的情绪波动，从而更有针对性地制定政策方针，具有重要的社会价值。尽管之前的社交媒体情感分析技术已经取得了不错的进展，但是如何将之前的研究成果快速高效地应用到疫情相关的数据当中，仍然是一个值得研究的问题。本次评测任务中，参赛成员不仅需要分析普通微博中的情绪，还要专门针对疫情相关微博进行情绪分析。

评测任务概述：
本届微博情绪分类评测任务一共包含两个测试集：第一个为通用微博数据集，其中的微博是随机收集的包含各种话题的数据；第二个为疫情微博数据集，其中的微博数据均与本次疫情相关。

任务描述如下：
微博情绪分类任务旨在识别微博中蕴含的情绪，输入是一条微博，输出是该微博所蕴含的情绪类别。在本次评测中，我们将微博按照其蕴含的情绪分为以下六个类别之一：积极、愤怒、悲伤、恐惧、惊奇和无情绪。

（4）SMP2020裁判文书互动论点对抽取技术评测（5月份）

在本届SMP会议上，我们将首次举办基于论辩挖掘的法律文本技术测评。本次测评也同样是第三届“中国法研杯”司法人工智能挑战赛第四赛道论辩挖掘项目。法院审判过程中，存在着大量记录详实、内容完整的文本数据，即裁判文书。近年来，随着科技的飞速发展，信息自动化成为了社会进步的主要标志。因此，在传统的法院审判过程中实现信息自动化，从而进一步实现司法公平性、客观性，是一项意义重大的任务。裁判文书作为法律文本中结构化最为明显、内容最为丰富的信息载体，在庭审过程中起着至关重要的作用，也是法律文本中信息自动化最为重要的一环。

■ 评测内容
裁判文书互动论点对抽取技术评测

【背景介绍】
裁判文书是人民法院庭审过程中记载的案件诉辩双方观点、证词和结果等内容的总称，它是庭审中诉讼事件结果的载体，也是人民法院用于裁定和判定各当事人实体权利以及负担义务的凭证。裁判文书的重要性在于，它是整个诉讼程序的浓缩，是对于庭审过程最为客观、动态的记录；也是用于分析、排解矛盾纷争最为客观、真实的工具；同时，裁判文书更体现着庭审法官在该过程中对于自身审判权的运用方式。

当前阶段，法院对于争议焦点的提取方法仍然停留在依靠法官人工阅读、整理、分析、归纳裁判文书中的双方陈词，使得这一步骤会耗费大量法官的时间精力资源。

本次测评旨在让参赛者设计模型，从给定的裁判文书中自动抽取出双方存在互动关系的论点对，为日后裁判文书整理工作的自动化、客观化做出贡献。

【任务描述】
如上文所介绍的，本次评测目的旨在自动化抽取出裁判文书中诉辩双方观点陈述中存在互动关系的论点对。具体操作层面上，对于所收集到的互动论点对中每一句诉方论点，我们都会给出四句辩方论述中的无关论点以及一句存在互动关系的辩方论点，共五句选项。参赛者的模型需要对于每一句给出的诉方论点，从五句候选论点中选出一句。最终的评价指标便是统计参赛者模型给出答案的正确率。

文本溯源的目标是判断一个文本的内容是否复制或改编于另外一个或者多个文本。文本溯源技术在学术诚信检测、搜索引擎优化等领域有广泛应用。

6、 SemEval（9月份）

SemEval评测及相关数据集在语义关系，推理，知识库生成领域是比较权威的，SemEval2020开始时间为2020年2月19日。今年包含12个子任务：

Lexical semantics
Task 1: Unsupervised Lexical Semantic Change Detection (无监督词汇语义变化检测)
Task 2: Predicting Multilingual and Cross-Lingual (Graded) Lexical Entailment (预测多语和跨语(分级)词汇蕴涵) ·
Task 3:Graded Word Similarity in Context (GWSC) (上下文中单词相似性的分级)

Common Sense Knowledge and Reasoning, Knowledge Extraction
Task 4: Commonsense Validation and Explanation (常识验证和解释)
Task 5: Modelling Causal Reasoning in Language: Detecting Counterfactuals (用语言模拟因果推理:发现反事实)
Task 6: DeftEval: Extracting definitions from free text in textbooks (DeftEval: 从教科书中的自由文本中提取定义)

Humour, Emphasis, and Sentiment
Task 7:Assessing Humor in Edited News Headlines (评价编辑过的新闻标题中的幽默)
Task 8:Memotion Analysis (情感分析)
Task 9: Sentiment Analysis for Code-Mixed social media text (代码混合社交媒体文本的情感分析)
Task 10: Emphasis Selection for Written Text in Visual Media (视觉媒体中文字的重点选择)

Societal Applications of NLP
Task 11: Detection of Propaganda Techniques in News Articles(新闻文章中宣传技巧的检测)
Task 12: OffensEval 2: Identifying and Categorizing Offensive Language in Social Media (识别和分类社交媒体中的攻击性语言)

7、知乎看山杯（2017—2019）（2020未发布）

知乎主办，每年任务都不相同，2020年任务还不确定。

2019年——专家发现算法大赛，评测语料中文。比赛将提供知乎的问题信息、用户画像、用户回答记录，以及用户接受邀请的记录，要求选手预测这个用户是否会接受某个新问题的邀请。

2019年8 月29 日 ：比赛正式开始，开放比赛队伍注册，同步发布训练集和验证集。11 月 27 日（23:59pm UTC）：12 月 16 日 23:59 pm UTC（北京时间 12 月 17 日 7:59 AM）：测试集开放下载，选手有24小时时间下载数据并提交测试集结果（3次）。

8、CCF大数据与计算智能大赛（2020未发布）

CCF Big Data & Computing Intelligence Contest，简称CCF BDCI，是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事，是全球大数据与人工智能领域最具影响力的活动之一。评测语言中文。2019/08/17发布赛题，开放报名，2019/10/31-2019/11/4截止报名，复赛入围资格审核。2019年评测任务包括：

1) 互联网新闻情感分析
2) 金融信息负面及主体判定
3) 互联网金融新实体发现
4) 多人种人脸识别
5) 视频版权检测算法
6) 文本实体识别及关系抽取

9、全国第二届“军事智能机器阅读”挑战赛（2020未发布）

全国第二届“军事智能机器阅读”挑战赛，2019年7月2日报名，2019年9月3日初赛，2019年10月9日复赛。

本届“莱斯杯”秉承“算法顶天、应用立地”的理念，在赛题设置上面向用户关键信息需求，以文字情报整编业务面临的实际痛点问题为切入点，旨在由机器筛选、整编出多篇文字报中用户所关心的活动时间、地点、频率、性能参数等中心内容。相比上一届“莱斯杯”，赛题在更加贴合实际应用同时，也将带来NLP算法的全新挑战，属当下最前沿热点研究领域之一。一旦成功应用，将颠覆以往情报整编工作以人工分析提炼为主的模式，逐步实现由机器替代繁琐、重复性情报整编业务流程。

10、待补充……

附录：（评测平台）

2020年自然语言处理评测平台内容发布情况地址：

kaggle（https://www.kaggle.com ）
DataFountain（https://www.datafountain.cn/）
biendata（https://biendata.com/）
天池（https://tianchi.aliyun.com/home/）
……

二、ChineseGLUE中文语言理解测评基准

ChineseGLUE
Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard

中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜。

我们会选择一系列有一定代表性的任务对应的数据集，做为我们测试基准的数据集。这些数据集会覆盖不同的任务、数据量、任务难度。

1、语料库(CLUECorpus2020)：语言建模、预训练或生成型任务

Corpus for Langauge Modelling, Pre-training, Generating tasks

可用于语言建模、预训练或生成型任务等，数据量超过14G，近4000个定义良好的txt文件、50亿个字。主要部分来自于nlp_chinese_corpus项目https://github.com/brightmart/nlp_chinese_corpus

当前语料库按照【预训练格式】处理，内含有多个文件夹；每个文件夹有许多不超过4M大小的小文件，文件格式符合预训练格式：每句话一行，文档间空行隔开。

包含如下子语料库（总共14G语料）：
1、新闻语料 news2016zh_corpus : 8G语料，分成两个上下两部分，总共有2000个小文件。 密码:mzlk
2、社区互动-语料 webText2019zh_corpus：3G语料，包含3G文本，总共有900多个小文件。 密码:qvlq
3、维基百科-语料 wiki2019zh_corpus：1.1G左右文本，包含300左右小文件。 密码:rja4
4、评论数据-语料 comments2019zh_corpus：2.3G左右文本，共784个小文件，包括点评评论547个、亚马逊评论227个，合并 ChineseNLPCorpus 的多个评论数据，清洗、格式转换、拆分成小文件。 密码:5kwk

这些语料，你可以通过上面这两个项目，清洗数据并做格式转换获得；

你也可以通过邮件申请（chineseGLUE#163.com）获得单个项目的语料，告知单位或学校、姓名、语料用途；

如需获得ChineseGLUE项目下的所有语料，需成为ChineseGLUE组织成员，并完成一个（小）任务。

2、ChineseGLUE的定位 Vision

为更好的服务中文语言理解、任务和产业界，做为通用语言模型测评的补充，通过完善中文语言理解基础设施的方式来促进中文语言模型的发展。

3、为什么我们需要一个中文任务的基准测试？

首先，中文是一个大语种，有其自身的特定、大量的应用。

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

其次，相对于英文的数据集，中文的公开可用的数据集还比较少。

很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

再次，语言理解发展到当前阶段，预训练模型极大的促进了自然语言理解。

不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

那么，如果有一个中文任务的基准测试，包含一批大众能广泛使用和测评的数据集、适用中文任务的特点、能紧跟当前世界技术的发展，

能缓解当前中文任务的一些问题，并促进相关应用的发展。

4、中文任务的基准测试-内容体系 Contents

Language Understanding Evaluation benchmark for Chinese(ChineseGLUE) got ideas from GLUE, which is a collection of resources for training, evaluating, and analyzing natural language understanding systems. ChineseGLUE consists of:

1）中文任务的基准测试，覆盖多个不同程度的语言任务

A benchmark of several sentence or sentence pair language understanding tasks. Currently the datasets used in these tasks are come from public. We will include datasets with private test set before the end of 2019.

2）公开的排行榜

A public leaderboard for tracking performance. You will able to submit your prediction files on these tasks, each task will be evaluated and scored, a final score will also be available.

3）基线模型，包含开始的代码、预训练模型

baselines for ChineseGLUE tasks. baselines will be available in TensorFlow,PyTorch,Keras and PaddlePaddle.

4）语料库，用于语言建模、预训练或生成型任务

A huge amount of raw corpus for pre-train or language modeling research purpose. It will contains around 10G raw corpus in 2019;

In the first half year of 2020, it will include at least 30G raw corpus; By the end of 2020, we will include enough raw corpus, such as 100G, so big enough that you will need no more raw corpus for general purpose language modeling. You can use it for general purpose or domain adaption, or even for text generating. when you use for domain adaption, you will able to select corpus you are interested in.

三、命名实体识别（NER）评测

1、简介

命名实体识别评测方式分为两种，一是通用的基于token标签进行直接评测，二是考虑实体边界+实体类型的评测。

2、标签评测

不考虑实体类型与实体边界，直接进行评测。

3、实体边界+实体类型

A、完全匹配

1、实体边界与实体类型都匹配正确；
2、预测出的实体在测试集中不存在；
3、测试集中的实体，没有被预测出来；

B、部分匹配（重叠）

4、实体边界正确，类型不正确；
5、边界错误（边界重叠）；
6、边界错误，实体类型也错误

4、评估指标

1）CoNLL-2003: Computational Natural Language Learning

仅考虑1、2、3方案；

完全匹配：精度、召回率、F1

参考 Introduction to the CoNLL-2003 Shared Task:
Language-Independent Named Entity Recognition：https://www.aclweb.org/anthology/W03-0419/

2）Automatic Content Extraction (ACE)

包括加权方案

参考 Automatic Content Extraction 2008 Evaluation Plan (ACE08)：
https://pubweb.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf

参考 The Automatic Content Extraction (ACE) Program: Tasks, Data, and Evaluation：
https://pdfs.semanticscholar.org/0617/dd6924df7a3491c299772b70e90507b195dc.pdf

3）Message Understanding Conference (MUC)

同事考虑实体边界和实体类型

Correct (COR): 匹配成功；

Incorrect(INC)：匹配失败；

Partial(PAR)：预测的实体边界与测试集重叠，但不完全相同；

Missing(MIS)：测试集实体边界没有被预测识别出来；

Spurius(SPU)：预测出的实体边界在测试集中不存在；

参考：MUC-5 EVALUATION METRICS：https://www.aclweb.org/anthology/M93-1007/
Python参考代码：https://github.com/jantrienes/nereval

4）SemEval‘13

严格（strict）：完全匹配，需要实体边界与实体类型都正确；

精确边界匹配（exact）：无论实体边界如何，预测的实体边界都是正确的；

部分边界匹配（partial）：忽略实体边界，有实体边界重叠即可；

类型匹配：预测的实体与测试集实体需要一定的重叠；

5、示例

在这里插入图片描述

图-实体预测结果与测试集匹配情况

1）测试集标签个数统计（golden）：
在这里插入图片描述

2）预测结果标签个数统计（predict）：
在这里插入图片描述

3）精确匹配（exact）：
在这里插入图片描述

4）部分匹配（partial）：
在这里插入图片描述

5）F1：
在这里插入图片描述

参考文献：

[1] https://zhuanlan.zhihu.com/p/102898713?utm_source=qq
[2] https://github.com/chineseGLUE/chineseGLUE
[3] https://github.com/CLUEbenchmark/CLUE
[4] 实体边界+实体类型：https://ychai.uk/notes/2018/11/21/NLP/NER/Evaluation-metrics-of-Name-Entity-Recognition-systems/
[5] scikit-learn标签评测（多分类评测方法）：https://devdocs.io/scikit_learn/modules/generated/sklearn.metrics.classification_report
[6] conlleval参考代码：https://github.com/sighsmile/conlleval
[7] NER MUC evaluation参考代码：https://github.com/cyk1337/NER-evaluation/