知识图谱:机器学习的完美补充

如今,网络上可用的信息量惊人,而且还在不断扩大。 例如,有超过19.4亿个与万维网(the World Wide Web)链接的网站,搜索引擎(例如谷歌、必应等)可以通过这些链接以极高的精度和速度提供有用的信息。 在大多数成功的搜索引擎中,最重要的核心是知识图谱(Knowledge Graphs)的使用。 不仅仅是搜索引擎,社交网站(例如Facebook等),电子商务网站(例如Amazon等)也在使用知识图谱来存储和检索有用的信息。

历史

1960年,语义网络(Semantic Networks)被发明以解决对知识表示框架的不断增长的需求,该框架可以捕获各种实体——现实世界的对象,事件,情况或抽象概念和关系,最终可以应用于扩展的英语对话任务。语义网络背后的主要思想是捕获各种各样的问题,包括计划,行动,时间,个人的信念和意图的表示,并且要笼统地容纳每个问题。

根据维基百科(Wikipedia),1980年底,荷兰的两所大学启动了一个名为知识图谱的项目,这是一种语义网络,但是为了促进图中的代数运算而增加了一些限制。

在2001年,Tim Berners-Lee创造了语义网(Semantic Web)这个术语,这是语义网络与Web结合使用的一种应用。

Tim Berners-Lee表示:“语义网是当前Web的扩展,在这种网络中,信息具有明确的含义,可以更好地使计算机和人们进行合作。”

2012年,Google将其知识图谱称为知识图谱

定义

每个公司/团体/个人都会创建自己的知识图版本,以限制复杂性并将信息组织成数据和知识。 例如,Google的知识图谱,知识库(Knowledge Vault),微软的Satori,Facebook的实体图(Entities Graph)等。

因此,没有知识图谱的正式定义。 从广义上讲,知识图谱是语义网络的一种变体,具有附加的约束,其范围,结构,特征甚至用途还没有得到完全实现,并且还在开发过程中。

一个知识图谱的例子

在这里插入图片描述

资料来源:Maximilian Nickel等。 知识图谱的关系机器学习综述:从多关系链接预测到自动化知识图谱构建

为什么要兴奋?

随着时间的流逝,知识图谱上的机器学习和知识表示学习在规模和深度上正在迅速发展,但发展方向不同。 一方面,机器学习技术越来越擅长在各种数据集上执行各种任务(例如,分类,生成等),具有很高的精度和召回率。 另一方面,知识表示带来了以高可靠性、可解释性和可重用性表示实体和关系的能力。 知识表示学习的最新进展包括从图中挖掘逻辑规则。

然而,将知识图谱和机器学习结合在一起将系统地提高系统的准确性,并扩展机器学习能力的范围。 例如,从机器学习模型推断出的结果将具有更好的可解释性和可信赖性。

扫描二维码关注公众号,回复: 10430544 查看本文章

以下是将知识图谱引入机器学习有益的一些机会:

数据不足

拥有足够的数据来训练机器学习模型非常重要。 在数据稀疏的情况下,知识图谱可用于增强训练数据,例如,用相似类型的实体名称替换原始训练数据中的实体名称。 这样,可以使用知识图谱创建大量的正面和负面例子。

Zero-Shot Learning

如今,机器学习模型的主要挑战在于,如果没有合适的训练数据,就无法区分两个数据点。 在机器学习中,这被视为零样本学习(Zero-Shot Learning)问题。 这就是知识图谱可以发挥很大作用的地方。 机器学习模型的归纳可以用知识图谱的推理来补充,例如,用训练数据中未出现的情景类型的图片。

可解释性

机器学习行业的主要问题之一是解释机器学习系统做出的预测。 一个问题是导致机器学习模型预测的隐式表示。 知识图谱可以通过将解释映射到图中的某些适当节点并总结决策过程来缓解此问题。

注意:以上机会在“知识图谱:语义网上的知识表示的新方向”研讨会报告(Dagstuhl研讨会18371)中有更详细的说明。

一些用例

  • 问答(Question Answering)是知识图谱的最常用应用之一。知识图谱包含大量信息,问答是帮助最终用户更有效、更高效地从知识图谱检索信息的好方法。
  • 存储研究信息(Storing Information of Research)是知识图谱另一个有用的应用。最近,许多公司正在使用知识图谱来存储从研究的各个阶段生成的信息,这些信息可用于构建可访问的模型、风险管理、过程监控等。
  • Netflix使用知识图谱为其推荐系统存储大量多样的信息,这有助于查找电影、电视节目、人物等之间的关系。随后,这些关系可以用来预测客户接下来可能想看什么。
  • 供应链管理(Supply Chain Management)也得益于知识图谱的使用。公司可以轻松地跟踪不同部件的库存、所涉及的人员、时间等,从而使他们可以更快、更经济地移动物品。

还有很多…

挑战

  1. 可以在创建知识图谱的过程中应用一组连贯的最佳实践,这将有助于工程师、开发人员和研究人员之间理解和重用知识图谱。
  2. 给定一组非结构化数据和知识图谱,知识整合(knowledge integration)的问题是确定数据中提到的实体是否与知识图谱中存在的真实实体匹配。尽管可以使用机器学习算法解决此问题,但是这些算法的结果直接取决于训练数据的质量。给定各种各样的数据集,知识整合变得非常困难。
  3. 知识不是一成不变的,而是不断发展的。例如,如果知识图谱记录了患者的健康状况,则在特定时刻存储的数据在以后的某个时刻可能是错误的。那么,我们如何捕捉知识的这种不断发展的本质呢?
  4. 如何评估知识图谱?哪个质量改进(例如完整性,正确性,链接性等)更重要?

参考资源

[1] Knowledge Graph: The Perfect Complement to Machine Learning
[2] Bonatti, Piero A. et al. “Knowledge Graphs: New Directions for Knowledge Representation on the Semantic Web (Dagstuhl Seminar 18371).” Dagstuhl Reports 8 (2018): 29–111.
[3] Paulheim, Heiko. “Knowledge graph refinement: A survey of approaches and evaluation methods.” Semantic Web 8 (2016): 489–508.
[4] Nickel, Maximilian et al. “A Review of Relational Machine Learning for Knowledge Graphs.” Proceedings of the IEEE 104 (2015): 11–33.
[5] Allen, J. and A. Frisch (1982). “What’s in a Semantic Network”. In: Proceedings of the 20th. Annual Meeting of ACL, Toronto, pp. 19–27.
[6] Shadbolt, Nigel et al. “The Semantic Web Revisited.” IEEE Intelligent Systems 21 (2006): 96–101.

发布了66 篇原创文章 · 获赞 101 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/u010705932/article/details/105041122
今日推荐