全国知识图谱与语义计算大会(China Conference on Knowledge Graph and Semantic Computing,CCKS)组织知识图谱相关评测竞赛,旨在提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。去年,CCKS2022评测竞赛环节共设立5个主题,14个任务,涵盖金融、教育、化学、电商、军事等领域,吸引了5362支队伍、近2.3万人参赛,共计52支队伍获得45.3万奖金,在工业界和学术界形成较高影响力。
今年,经过评测任务第一轮征集和评测组委会筛选,CCKS2023目前设置三个评测主题,6项评测任务。每项任务(或子任务)均设置一、二、三等奖与技术创新奖,优秀评测论文也将推荐收录进入主会论文集。下面首先介绍各项任务,文末附任务持续征集的时间安排。
一、评测任务简介
主题一:图谱构建与信息抽取
任务1:开放环境下的知识图谱构建与补全
任务描述:
知识图谱是一种结构化的数据表示形式,它以图形的方式展示实体及其之间的关系。而大型语言模型,如GPT系列模型,通过在大量文本数据上进行预训练,能够捕捉到丰富的语义和句法信息。知识图谱可以为大型语言模型提供结构化的知识,有助于改善模型的推理能力和生成质量。通过将知识图谱中的信息融入大型语言模型中,可以使模型在处理复杂任务时更具智能和准确性。今年,面向更有挑战的开放环境下知识图谱构建和补全场景,围绕基于大模型的知识抽取与推理关键技术,浙江大学联合OpenKG开放知识图谱社区在CCKS2023组织评测并包括两个子任务:指令驱动的自适应知识图谱构建、归纳式知识图谱关系推理。
任务组织者:
张宁豫(浙江大学)
张 文(浙江大学)
桂鸿浩(浙江大学)
陈名杨(浙江大学)
黄志伟(浙江大学)
学术指导委员会:
陈华钧(浙江大学)
熊飞宇(阿里巴巴)
郭 威(阿里巴巴)
黄 非(阿里巴巴)
王昊奋(同济大学)
漆桂林(东南大学)
任务联系方式:
任务2:面向金融领域的主体事件检测
任务描述:
主体事件检测是语言文本分析和金融领域智能应用的重要任务之一,如在金融风控领域往往会对公司主体进行风险事件的检测。基于句子粒度的上下文进行公司事件检测,事件包含事件类型和主体要素(即公司主体),句中可能存在多个事件,多个公司主体且每个公司都可能存在多个事件类型标签,并且各类型标注样本分布不均匀,部分类型样本量较少,我们希望检测出文本中包含的所有主体事件。本次评测任务的文本语料来自于互联上的公开新闻、报告。样本包含有事件样本和无事件样本。
备注:优胜者有机会进入2023蚂蚁集团校园招聘终面或者实习生绿色通道。
任务组织者:
孙梦姝(蚂蚁集团)
钟 玲(蚂蚁集团)
陈玉博(中科院自动化所)
曹鹏飞(中科院自动化所)
刘 康(中科院自动化所)
赵 军(中科院自动化所)
任务联系人:
任务3:面向上市公司主营业务的实体链接
任务描述:
实体链接(Entity Linking),也叫实体链指,旨在从非结构化数据中识别预定义类型的实体(人物、地点、机构、产品等),获得表示实体的词语(即所谓mention,对某个实体的指称项),并从另一个包含若干实体的知识库(领域词库、知识图谱等)中找到mention所表示的正确实体。本次评测主要针对上市公司的主营业务进行产品实体链接,需识别主营业务中的产品实体并将其链接到产品数据库中的某个产品实体。比如某一公司主营业务为“主要生产日用居家小家电,生活零售用品等相关产品”,获得“日用居家小家电”这一产品实体,称为主实体;通过实体链接技术,找到产品数据库中的“生活小件家电”这一产品实体,称为链接实体。主实体与链接实体构成一个链接实体对,表示这两个实体是不同名称的相同实体。通过这些链接实体对,实现词语消歧以及数据源的融合。
任务组织者:
刘 莹(东北大学)
任务联系人:
陈 宇 13712196871
主题二:知识推理问答
任务4:开放领域知识图谱问答
任务描述:
知识图谱以结构化形式存储与表示海量数据,作为承载底层海量知识并支持上层智能应用的重要载体,在智能时代中扮演着重要角色。但同样受限于其高度结构化的特点,用户需要构建结构化查询语句(SPARQL等)来查找相关知识,造成了使用不便。因此,在知识图谱上进行自然语言问答(KBQA)近年来备受关注。在学界,语义解析、信息检索等创新性方法与框架百花齐放;在业界,智能音箱、语音助手等应用也极大拓宽了应用场景,进一步加强了对高效、准确、易用、安全、可解释的KBQA系统的需求。因此,本次评测期待参赛者提出创新性的KBQA系统,兼顾“专而深”的特定领域和“广而浅”的开放领域知识图谱,对用户提出的复杂多样的自然语言问题给出准确答案。同时,我们更希望此次评测可以为KBQA的下一步研究和落地提供一些理论及实践层面的启发。
任务组织者:
邹 磊(北京大学王选计算机研究所)
林殷年(北京大学王选计算机研究所)
张旻昊(北京大学王选计算机研究所)
张若禹(北京大学王选计算机研究所)
任务联系人:
任务5:外军无人系统知识图谱推理问答
任务描述:
无人系统已成为现代军事力量的重要组成,在各类军事行动中发挥着日趋重要的作用,知识图谱是公认的智能化信息基础。组织方本着构建精准、可用的军事垂直领域权威知识图谱目标,自2020年开始,连续3年依托CCKS平台,组织无人系统知识图谱构建任务,着重提供权威、系统、精准的原始数据以及部分领域知识指导,目前,图谱知识库已初具规模。中文知识图谱自然语言问答,是连接具体用户和知识图谱之间的“人机接口”,是知识图谱服务能力发挥的重要支撑。年初以来,尽管大语言模型在问答领域产生了颠覆性影响,但在机理上仍是基于数据的统计模型,与军事领域强调的“精准性”要求存在一定差距。知识图谱背后的精准专家知识与可解释性,仍然是当前一段时间分析、辅助决策类军事应用的主要支撑。为此,组织方开放前期通过评测任务构建的部分外军无人系统知识库,同步提供带有军事语言特点与无人系统关切点的问答数据集,通过组织技术评测,提升外军无人系统CKBQA的精准性,支撑知识图谱系统尽快上线服务用户,投入实践、发挥实用。
鉴于本次评测的数据价值,同时也希望参赛队能切实参与评测,任务设置“报名-审批”环节。参赛队需首先在红山开源平台完成注册(https://www.osredm.com/competition/zstp2023),并在“参赛报名”处填写信息。
任务组织者:
张 静(军事科学院系统工程研究院)
任务联系方式:
主题三:知识存储管理
任务6:基于图数据库的自定义图分析算法评测
任务描述:
知识图谱本质是基于图的语义网络,图数据库以图模式存储管理数据,对于知识图谱数据存储具有得天独厚的优势。知识图谱查询、分析及推理是其支撑智能应用的关键核心技术,反映到图数据库上是图查询与图分析。BFS和DFS是图数据库核心的算法,在此基础上,众多学者针对不同需求设计了一系列的图查询与图分析算法,如局部聚集系数、标签传播、单元最短路径及其不同变种。但遗憾的是,传统的图数据库查询语言并未完全内置这些算法,如SPARQL,Gremlin等。因此,本次测评旨在将图查询和图分析经典算法进行实现并在图数据库中进行验证,对于检验算法有效性和实用性具有重要意义。
任务组织者:
邹 磊(北京大学王选计算机研究所)
李文杰(北京大学重庆大数据研究院)
王 剑(北京大学重庆大数据研究院)
任务联系人:
二、评测任务持续征集
时间安排:
第二轮任务征集截止:4月30日
审核结果通知:5月3日
评测任务发布:5月4日
报名时间:5月4日—7月14日
训练及验证数据发布:5月10日
测试数据发布:7月14日
测试结果提交:7月21日
评测排名通知:7月28日
评测论文提交:8月11日
CCKS会议日期(评测报告及颁奖):8月24日—27日
评测主席:
侯磊,清华大学 ([email protected])
张元哲,中科院自动化所([email protected])
吴天星,东南大学([email protected])
评测任务方案请通过邮件发送给评测主席,方案中应详细描述任务内容以及评测数据的准备过程。评测方案的模板及内容可参考CCKS 2022各个任务的任务描述文件(https://sigkg.cn/ccks2022/?page_id=22)。
评测任务主题包括(但不限于):
知识表示与推理
知识表示与本体建模
知识表示学习
本体重用与演化
本体映射、融合与对齐
本体评估
知识推理
知识库补全
通用AI中的知识表示与推理
知识获取与知识图谱构建
开放知识抽取
众包知识工程与协同知识获取
人机协同知识库构建
通用AI中的知识挖掘
维基数据的知识获取
自动化知识库构建工具、语言与系统
基于监督学习/非监督学习的知识获取
半监督学习/远程监督学习与文本抽取
链接数据、知识融合和知识图谱存储管理
实体识别、实体消解与实体链接
术语映射与集成
异构知识链接与集成
基于本体的数据集成
通用AI中的知识融合
知识查询与搜索
弹性知识存储与分布式计算
图数据库
通用AI中的知识存储
自然语言理解、语义计算和知识图谱挖掘
文本理解
机器阅读理解
语义相似度/相关度计算
同义挖掘
通用AI中的自然语言理解
知识图谱应用
知识图谱可视化
语义搜索
基于知识的问答系统
智能个人助理系统
基于知识的自然语言/语音/图像/视频语义分析
智能推荐
通用AI与知识图谱应用
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。