知识图谱助力新基建

知识图谱助力新基建

导读:大家上午好,本次分享题目为知识图谱助力新基建,基于知识图谱构建新一代数据智能基础设施,主要介绍:

  • 新基建简介
  • 知识图谱助力新基建
  • 基于知识图谱的智能数据治理
  • 基于知识图谱的认知智能中台
  • 产业化实践

新基建简介

  1. 新基建:提出与发展

  1. 新基建:建设内容

上述我们讲到的新基建主要包括哪些内容?

主要包括5G基建、大数据中心、人工智能、工业互联网、高速铁路和城际轨道交通、特高压、新能源汽车充电桩等七大部分的建设,今天主要关注大数据中心与人工智能两个话题。

  1. 新基建:大数据中心

2019年中国数据中心数量大约有7.4万个,大约能占全球数据中心总量的23%,但大型和超大型数据中心的数量较少并且地区分布很不均衡,各方均倾向通过规模化建设以避免盲目建设和重复投资,数据中心大型化、规模化将成为大势所趋。预测到2030年,全球数据原生产业规模量将占整体经济总量的15%,而中国数据总量将超过4YB,占全球数据量30%,在新基建政策的推动下,中国的大数据产业将迎来更好的发展机遇,大数据中心也将成为新一轮全球竞争中,国家竞争力的新的内涵。

  1. 新基建:人工智能

人工智能是新一轮产业变革的核心驱动力量,将推动数万亿数字经济产业转型升级。国务院《新一代人工智能发展规划》指出,到2025年中国人工智能核心产业规模超过4000亿 元,带动相关产业规模超过5万亿 元。人工智能是新一轮科技竞赛的制高点,对经济增长和国家安全均至关重要。

我们分析一下,人工智能首先包括基础层的硬件、算法、数据和知识。其次技术层的视觉、语音、自然语言处理、大数据治理等等。在向上是平台与系统包括基础AI框架、技术开放平台、AI中台等等,最上面一层是应用层包括在金融、医疗、教育等行业方面的应用。如下图所示:

随着新基建的推进,国家也将数据、技术、与知识作为更重要的战略资源,提高到与健全劳动力、资本、土地一样作为生产要素按贡献参与分配的机制。今年3月份中共中央国务院在会议上提出《关于构建更加完善的要素市场化配置体制机制的意见》中提到加快培育数据要素市场,全面贯彻落实以增加知识价值为导向的收入分配政策,充分尊重科研、技术、管理人才,充分体现技术、知识、管理、数据等要素的价值。对大数据、人工智能产业的发展提供更好的政策支持。

知识图谱助力新基建

接下来,让我们来看看知识图谱怎么助力新基建。

  1. DIKW模型

首先咱们共同看一下DIKW模型,大家对这个模型应该是耳熟能详了,它呈现自底向上金字塔的形态,以次是数据、信息、知识,最终达到智慧,具体如下图所示:

那么我们依据DLKW模型的理解,我们可以通过不同的视角进行理解。首先我们从DIKW模型我们可以看到从数据->知识->智慧这个数据利用的过程。其次我们也可以从技术的视角来看我们就可以关联到几个关键词数据对应的是大数据、而知识对应的就是知识图谱、智慧对应的是人工智能。那么最后我们再从新基建的视角来看,可以结合着大数据中心的建设,大规模的智能数据中心建设也就是大规模知识图谱建设以及人工智能基础设施的建设。我们从不同的角度来理解从数据到知识再到智慧应用的提炼的过程,具体如下图所示:

  1. AI正在向“认知智能”演进

人工智能和前面介绍的DIKW模型一样也呈现金字塔模型,从最底层的运算智能->感知智能->认知智能->通用智能。那么当前我们所看到的人工智能都还停留在感知的层面。简单来说,基本实现了能听会说,能看会认,还不能具备人类所具有的比如说,理解、思考和解释的这种能力。这也是很多专家提出来现在的人工智能还是有缺陷的人工智能,还需要进一步发展,成为具有思考、理解能力的人工智能,这也人工智能要进入的目前正在进入的而且必须要进入的下一个阶段也就是认知智能。比如清华大学的张钹院士曾说“我们现在的人工智能基本方法有缺陷,我们必须走向具有理解的AI,这才是真正的人工智能。人的智能没法通过单纯的大数据学习把他学出来,那怎么办?很简单,加上知识,让他有推理的能力,做决策的能力。”

从国务院《新一代人工智能发展规划》中,曾明确提出建立新一代人工智能关键共性技术体系重点任务,特别强调了研究跨媒体统一表征、关键理解与知识挖掘、知识图谱构建与学习,知识演化与推理等技术。在今年的重大项目审批指南中反复提到“认知”,“知识图谱”相关的关键词,并鼓励在信息平台、金融、客服、教育、工业、医疗等领域构建行业知识图谱。

  1. 认知智能基础:符号与连接的结合

从国家层面这么重视认知智能,那么我们该如何构建认知智能的基础呢,其中有两个核心支撑的技术,一个是符号主义、一个是联结主义,也是目前人工智能主要发展三大流派中的其中两大流派。简单的理解可以认为符号主义现阶段主要发展的就是知识图谱,联结主义现阶段主要发展的就是深度神经网络。一方面我们需要它们各自来实现我们需要的认知智能,同时我们还需要将它们进行结合,也就是我们现在大家经常听到的符号主义和联结主义相结合的,比如说图嵌入、图神经网络以及基于知识图谱的表示学习。

  1. 知识图谱:实现认知智能的基石

上一小结我们的认知智能的基础,那么本小节我们重点介绍一下实现认知智能的基石—知识图谱。如果说知识是人类进步的阶梯,知识图谱就是AI进步的阶梯。这正是知识图谱对于AI最核心的意义。有了知识图谱之后,它就能够让机器可以更好地理解数据,同时还可以让机器更好地解释现象。知识图谱从2012年提出来之后在搜索、行业应用上得到了广泛的应用。

  1. 知识图谱助力人工智能应用

知识图谱在助力人工智能上都有哪些应用呢?

包括我们在前面提到的搜索,还包括聊天机器人、决策支持、私人助理、智能硬件、智能家居等等各方面都得到应用。

  1. 知识图谱助力新基建

知识图谱又是怎么助力我们新基建呢?

简单来说,可以分为两个部分,第一、建设新一代智能数据中心的基础设施;第二、助力认知智能构建人工智能基础设施,从而构建AI上层应用。

上述就是我们总的来介绍知识图谱助力新基建,下面我们就从上述两个方面更加详细的介绍怎么建设新一代智能数据中心的基础设施,怎么助力认知智能构建人工智能基础设施,构建AI上层应用。

基于知识图谱的智能数据中心

  1. 大数据中心建设—数据治理

首先介绍一下大数据中心建设最重要的环节大数据治理,大数据的治理从大数据的产生到现在已经经历了十多年的发展,里面包含着非常多的技术以及系统化的工程指导。大数据治理具体包括一下几类:元数据管理、主数据管理、数据质量、业务流程、数据架构、数据标准、数据生命周期、数据安全等。同时也出现了很多标准,不如国标GB/T 34960的数据治理框架,它包括顶层设计、数据治理的环境、数据治理域以及数据治理过程几个部分。以上便是数据治理的技术以及数据治理的框架,具体可参考下图:

  1. 数据治理需要提升与完善的痛点

虽然从上一节我们可以看到数据治理已经有了完善的数据治理的技术与框架,但是数据治理仍面临需要提升和完善的痛点。具体如下:

  1. 非结构化数据利用程度低

数据治理中很少去考虑非结构化的数据,但是非结构化数据、或半结构化数据在目前占的比重会越来越大。

  1. 不同类型的多模态数据难以融合

多模态的数据尚未做深度的融合

  1. 数据之间的关联信息未有效利用
  2. 缺乏面向业务的灵活模型
  3. 智能化应用支持能力不足
  1. 基于知识图谱的数据治理

针对上一节我们在目前大数据治理总结遇到的痛点问题,以及需要完善的地方。我们提出一下基于知识图谱的数据治理方案。总体来说,建设知识图谱深度地去提炼,提取知识,然后构建智能的应用,进一步提升数据的价值。那么具体怎么去实现呢?

第一,在经典的大数据治理框架基础上去定义一个统一的知识表示模型,包括概念、实体、属性、关系、事件、业务规则、链接多模态数据等等,来对数据进行统一的表示。

第二,有了以上的统一的数据表示和存储模型之后,我们就可以在上面针对这种结构化、半结构化的数据去进行进一步的知识提取,让计算机进一步的去理解,包括实体的识别、属性的抽取、事件的抽取等等。

第三,有了上述实体这一基础的知识组织方式以后,那么就可以去提取实体之间的关系,建立数据、知识之间的关联。

第四、同时我们也进行采用本体映射、实体对其、知识链接等相关技术,对知识进行更层次的融合,形成统一的知识图谱。

第五、通过统一的知识图谱存储来进行落地以后,来进行智能应用的构建。包括语义检索、智能问答、图关联分析以及决策分析等等。

知识图谱数据治理

上述我们讲了知识图谱治理的整体的框架,下面我们从统一表示与建模、知识抽取、多策略信息抽取、深度语义融合、多态存储来对知识图谱治理的进行一个展开的分析。

1)、统一表示与建模

使用统一的表示模型,整体概括下来,包括概念、实体、属性、关系、事件、业务规则以及还包括多模态数据的通过链接的方式与知识图谱中的元素进行链接关联。下面是一个例子,特朗普它属于人物这个概念,他是美国当前的总统,他的国籍是美国,这是一个关系。那么一个事件比如说2020年7月25日 首次承认疫情恶化,它就一个事件,它包括事件发生的时间、地点、人物等等。那么业务规则比如说如果美国关闭中驻美领事馆,那么中国也将采取对等反制措施,这便是一条具体的业务规则。

2)、知识抽取

当面临结构化数据和半结构化数据知识抽取,它包括对结构化数据的的转换与图映射、以及对纯文本数据的信息抽取。

3)、多策略信息抽取

采用多策略抽取的模型来实现对半结构化、非结构化数据的信息抽取。非结构化数据任务的处理可以分为命名实体识别,关系抽取、属性抽取、事件抽取、指代消解以及规则挖掘等方面。那么多策略抽取的方法采取什么样的策略呢?首先,通过远程监督学习方式从结构化信息或者已有的知识库中自动地生成语料, 然后去训练非结构化数据的模型,最终实现大规模数据的抽取。这块后面有嘉宾进行分享,这里就不作展开介绍了。多策略抽取的一个方法

4)、深度语义融合

针对半结构化和非结构化数据抽取之后,那么接下来我们来实现知识或者数据的深层次的语义融合。以下主要从四个方面来介绍:

首先,本体对齐,实现不同来源本体中概念和关系的映射与对齐,实现模式层面的融合。

其次、实体对齐,对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。比如说两个实体描述的是同一个实体,或者两个事件描述的是同一个事件

再次、关系发现,发现实体之间的关联关系,建立数据、知识之间的关联,撬动数据深层次价值。

最后、实体链接,把多模态数据与知识图谱中的知识进行语义关联,形成多模态知识图谱。

通过以上几步我们就可以深层次的语义融合。

5)、多态存储

通过以上的数据表示,结构化数据和半结构化数据提取与融合,就可以形成统一的知识图谱,通过多态的知识图谱存储引擎来前面获取的知识的存储。具体来说,我们会以图数据库为核心,结合多种存储引擎来实现多种类型数据的存储,包括以上提到的记录型数据、文档型数据、多模态的媒体数据以及索引数据。通过多种存储机制去存储,这样就形成了以图数据库为核心的知识图谱多态存储引擎。

  1. 基于知识图谱的智能数据治理平台

通过前面的几个步骤以后,我们就形成了一个基于知识图谱的智能数据治理平台。针对前面提到的目前数据治理所面临的挑战,通过统一的知识表示,及统一的知识提取进行知识融合,形成统一的知识图谱、多态知识存储,为上层提供统一的知识消费,进而实现智能问答,智能检索、智能推荐等上层智能应用。

  1. 基于区块链与安全多方计算的联邦智能数据中心

由于面临数据分散在不同的地方,同一公司分布在不同的部门或分公司的问题,那么我们提出基于区块链与安全多方计算的联邦智能数据中心,其中最核心的技术最热门的技术包括区块链、安全多方计算以及联邦学习等等以达到异地数据的共识、共享、加密、协同计算、溯源的目的。

基于知识图谱的认知智能中台

  1. 知识图谱认知智能中台化

上述提到了我们通过知识图谱实现数据的深度治理,以便实现上层的智能应用,通过这种思路我们在很多领域做了相关的实践,引入知识图谱去做知识图谱之后,他并不是去替代经典的大数据治理,反而是对经典的大数据的一种增强,进一步去提升数据的价值,所以之前提到大数据治理面临的问题,我们大多数可能也都会遇见。我们只是通过知识图谱技术去进一步的挖掘数据的价值。在实践的过程中间我们也会发现还会存在一些问题,比如说,从应用的角度大数据治理构建周期较长,图谱构建难度高,复用率低,但从用户的视角,更多的是开箱即用,换句话说,就是快速构建业务的方式实现业务要求,通过我们在多个行业的实战,我们也经过数据中台的理念,我们提出了基于知识图谱的认知智能中台,。我们都知道中台的一个主要的目的就是快速实现业务数据的构建。

  1. 知识图谱认知智能中台化思路

针对上述提到的基于知识图谱的认知智能中台,以期达到数据敏捷,以及应用开发的敏捷。我们可以从以下三个部分来一一介绍。第一、通过高度抽象对组件进行微服务化,提高复用性。第二、预构建,目标就是开箱即用,第三、通过业务可编排的方式,使用户自助构建应用。

1)、中台组件微服务化

中台组件的微服务化,一方面针对大数据治理组件化、微服务化,同时也针对知识图谱里面的能力,比如说只是建模、知识获取、知识融合、知识存储等等去组件化,方便数据统一的管理。另一方面在数据治理的基础上我们提供智能应用组件,包括统一检索、智能推荐等等。

2)、中台化预构建

预构建模型的直接使用与深度启示

直接使用

      预构建模型直接用于知识图谱构建与应用过程中的NLP、NLU相关Task。

深度启示

      Bert使用大量数据(弱标注)和复杂的模型来降低高质量语料的支持,形成通用的语言模型。

PlantData:从多元异构数据中的结构化数据开始,使用远程监督的思想自动生成训练数据,通过迭代生成面向行业应用的模型。

预构建我们还可以做哪些事情呢,我们可以预构建数据的模式,预构建知识库,预置业务应用,预构建模型和算法以及预构建业务场景,这就是中台化预构建的主要内容。

     3)、中台业务编排

通过前面组件的微服务化、预构建的大量的数据和知识,就可以在这些基础上面对业务进行编排,让用户快速实现应用的形态。

  1. 基于知识图谱的认知智能中台架构

基于知识图谱的数据治理平台,以及对中台化的思考与改造,包括组件的微服务化、中台化的预构建、中台业务的编排与应用的实现,最终我们实现了基于知识图谱的认知智能中台的整体架构,具体参看下图:

产业化实践

基于数据治理平台以及认知智能中台,我们在实践中实现了这种大中台,小前台的这种应用构建的新范式。重心在智能中台的构建,会将前面的数据的治理,整理、知识的挖掘以及中台的建设放到产业化实践的重心。这些我们都可以在面向用户场景之前就可以做很多工作,包括从技术层面的工作、数据层面的积累、模型与应用层面的积累。等到用户具体的场景之后在此基础上就可以快速构建一个客户业务的应用。

  1. 认知智能中台产业化实践步骤

  1. 基于图挖掘与复杂推理的金融风控中台

基于知识图谱的认知智能构建的范式,在金融领域就可以针对一些公开的数据,或者第三方的数据进行预构建数据,预构建知识,预先实现我们的数据治理,再此基础上就可以去构建知识图谱,比如说面向企业的知识图谱,面向专利的知识图谱、面向产业链的知识图谱。有了这些之后,我们还可以预构建面向于金融行业的模型与应用,包括风险画像模型、谱系分析模型、供应链风险传导等模型。在实现应用的时候只要把客户相关的数据引入,以及客户相关的场景去构建相应的业务建模,针对他的数据和场景去实现算法的微调,最终根据业务编排引擎去快速构建他的具体应用。

  1. 面向事件分析与复杂推理的情报分析中台

同样在情报分析领域,我们实现了这样一个情报分析中台。同样去预训练我们的数据、图谱以及模型与应用,最终用户可以通过我们的业务编排工作台来构建我们的智能应用。在客户现场我们就可以快速引入客户的数据,就可以快速实现客户的应用。

  1. 其他应用场景

基于这样的一个中台我们还可以应用在其他应用场景,比如说我们在保险业中保险咨询、产品推荐类的机器人。在电商领域我们可以提供面向电商的语义搜索。在一些复杂的领域的应用,比如纪检领域基于前面的数据和知识通过推理的方式实现隐含关系的推理。同样的我们还可以通过业务编排引擎来实现一些应用的编排。其他场景的应用如下图:

本文来自于整理胡芳槐老师在DATAFUN社区分享的ppt。

猜你喜欢

转载自blog.csdn.net/jinhao_2008/article/details/108142886