[转发]知识图谱（Knowledge Graph）专知荟萃

知识图谱（Knowledge Graph）专知荟萃

入门学习

大规模知识图谱技术王昊奋华东理工大学
[http://history.ccf.org.cn/sites/ccf/xhdtnry.jsp?contentId=2794147245202]
[https://pan.baidu.com/s/1i5w2RcD]
知识图谱技术原理介绍王昊奋
[http://www.36dsj.com/archives/39306]
大规模知识图谱的表示学习及其应用刘知远
[http://www.cipsc.org.cn/kg3/]
知识图谱的知识表现方法回顾与展望鲍捷
[http://www.cipsc.org.cn/kg3/]
基于翻译模型(Trans系列)的知识表示学习 paperweekly
[http://www.sohu.com/a/116866488_465975\]
中文知识图谱构建方法研究1，2，3
[http://blog.csdn.net/zhangqiang1104/article/details/50212227]
[http://blog.csdn.net/zhangqiang1104/article/details/50212261]
[http://blog.csdn.net/zhangqiang1104/article/details/50212341]
TransE算法（Translating Embedding）
[http://blog.csdn.net/u011274209/article/details/50991385]
OpenKE 刘知远清华大学知识表示学习（Knowledge Embedding）旨在将知识图谱中实体与关系嵌入到低维向量空间中，有效提升知识计算效率。
[ http://openke.thunlp.org/]
面向大规模知识图谱的表示学习技术刘知远
[http://www.cbdio.com/BigData/2016-03/03/content_4675344.htm]
当知识图谱“遇见”深度学习肖仰华
[http://caai.cn/index.php?s=/Home/Article/qikandetail/year/2017/month/04.html]
NLP与知识图谱的对接白硕
[http://caai.cn/index.php?s=/Home/Article/qikandetail/year/2017/month/04.html]
【干货】最全知识图谱综述#1: 概念以及构建技术专知
- [http://mp.weixin.qq.com/s/bhk6iZdphif74HJlyUZOBQ]
知识图谱综述: 构建技术与典型应用专知
- [https://mp.weixin.qq.com/s/j1ub_exp-T7kk7snHs4eYw]
知识图谱相关会议之观后感分享与学习总结
- [http://blog.csdn.net/eastmount/article/details/46672701]
- PPT: [http://download.csdn.net/detail/eastmount/9159689]

进阶论文

1991

sowa J F. Principles of semantic networks: Exploration in the representation of Knowledge[J]. Frame Problem in Artificial Intelligence, 1991(2-3):135–157.
[https://www.researchgate.net/publication/230854809_Principles_of_Semantic_Networks_Exploration_in_the_Representation_of_Knowledge]

1998

brin s. Extracting Patterns and relations from the World Wide Web[J]. lecture notes in computer Science, 1998, 1590:172-183 [Extracting Patterns and relations from the World Wide Web]

2001

Berners-Lee T, Hendler J, Lassila O. The semantic Web: A new Form of Web content that is Meaningful to computers will Unleash a revolution of New Possibilities[J]. Scientific American, 2001, 284(5):34-43.
[http://xitizap.com/semantic-web.pdf]

2005

Guodong Z, Jian S, Jie Z, et al. Exploring Various Knowledge in relation Extraction.[c]// ACL 2005, Meeting of the Association for Computational Linguistics, Proceedings of the Conference, 2530 June, 2005, University of Michigan, USA. DBLP. 2005:419-444.
[https://dl.acm.org/citation.cfm?id=1219893]

2008

Suchanek F M, Kasneci G, Weikum G. YAGO: A large ontology from Wikipedia and Wordnet[J]. Web semantics science services and agents on the World Wide Web, 2008, 6(3):203-217.
[http://www.sciencedirect.com/science/article/pii/S1570826808000437]

2009

Brachman R J, Borgida A, Mcguinness D L, et al. " Reducing" CLASSIC to Practice: Knowledge representation theory Meets reality[c]// conceptual Modeling: Foundations and applications. springerVerlag. 2009:436-465.
[http://www.sciencedirect.com/science/article/pii/S0004370299000788]
Hellmann S, Lehmann J, Auer S. Learning of oWl class Descriptions on Very large Knowledge bases[J]. international Journal on semantic Web and Information Systems, 2009, 5(5):25-48.
[http://wifo5-03.informatik.uni-mannheim.de/bizer/pub/iswc2008pd-bak/iswc2008pd_submission_83.pdf]
8.lehmann J. Dl-learner: learning concepts in Description logics[J]. Journal of Machine learning Research, 2009, 10(6):2639-2642.
[http://dl.acm.org/citation.cfm?id=1755874]

2010

Kate R J, Mooney R J. Joint Entity and relation Extraction using card-pyramid Parsing[c]// C onference on C omputational N atural L anguage learning. 2010:203-212.
[http://www.cse.fau.edu/~xqzhu/courses/cap6777/Joint.Named.Entity.kate.conll10.pdf]
10.Carlson A, Betteridge J, Kisiel B, et al. Toward an architecture for N ever-Ending language learning. [ C ]// twenty-Fourth AAAI C onference on A rtificial Intelligence, AAAI 2010, Atlanta, Georgia, Usa, July. DBLP, 2010:529-573.
[https://www.aaai.org/ocs/index.php/AAAI/AAAI10/paper/view/1879]
11.Navigli R, Ponzetto S P. BabelNet: Building a very Large Multilingual S emantic Network[ C ]// annual Meeting of the association for computational linguistics. 2010:216-225.
[https://dl.acm.org/citation.cfm?id=1858704]

2011

Hu W, Chen J, Qu Y. A Self-training Approach for resolving object coreference on the semantic Web[ C ]// I nternational C onference on World Wide Web. ACM, 2011:87-96.
[https://dl.acm.org/citation.cfm?id=1963421]
Han X, Sun L. A Generative Entity-Mention Model for linking Entities with Knowledge base[c]// T he Meeting of the A ssociation for C omputational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA. DBLP, 2011:945-954.
[https://dl.acm.org/citation.cfm?id=2002592]
Zhang W, Sim Y C, Su J, et al. Entity Linking with Effective Acronym Expansion, Instance Selection and topic Modeling[c]// international Joint conference on Artificial Intelligence. 2011:1909-1914.
[http://www.aaai.org/ocs/index.php/IJCAI/IJCAI11/paper/view/3392]
Han X, Sun L, Zhao J. Collective Entity Linking in Web text: A Graph-based Method[c]// Proceeding of the international acM siGir conference on research and Development in Information Retrieval, SIGIR 2011, Beijing, China, July. DBLP, 2011:765-774.
[https://dl.acm.org/citation.cfm?id=2010019]
Nickel M, Tresp V, Kriegel H P. A Three-Way Model for collective learning on Multi-relational Data. [C]// International Conference on Machine Learning, ICML 2011, Bellevue, Washington, Usa, June 28 July. DBLP, 2011:809-816.
[http://www.icml-2011.org/papers/438_icmlpaper.pdf]
Bordes A, Weston J, Collobert R, et al. Learning structured Embeddings of Knowledge bases[c]// AAAI Conference on Artificial Intelligence, AAAI 2011, San Francisco, California, Usa, August. DBLP, 2011:301-306.
[http://www.aaai.org/ocs/index.php/AAAI/AAAI11/paper/view/3659]
Lao N, Mitchell T, Cohen W W. Random Walk inference and learning in a large scale Knowledge base[c]// conference on Empirical Methods in natural Language Processing, EMNLP 2011, 27-31 July 2011, John Mcintyre Conference Centre, Edinburgh, Uk, A Meeting of Sigdat, A Special Interest Group of the ACL. DBLP, 2011:529-539.
[https://dl.acm.org/citation.cfm?id=2145494]

2013

Li J, Wang Z, Zhang X, et al. Large Scale instance Matching via Multiple indexes and candidate Selection[J]. Knowledge-Based Systems, 2013, 50(3):112-120.
[http://disi.unitn.it/~p2p/RelatedWork/Matching/KBS13-Li-et-al-large-instance.pdf]
Shen W, Wang J, Luo P, et al. Linking Named Entities in tweets with Knowledge Base via User Interest Modeling[ C ]// AC M SI GKDD I nternational C onference on Knowledge Discovery and Data Mining. ACM, 2013:68-76.
[https://dl.acm.org/citation.cfm?id=2487686]
Alhelbawy A, Gaizauskas R. Graph Ranking for collective named Entity Disambiguation[c]// Meeting of the Association for Computational L inguistics. 2014:75-80.
[http://www.anthology.aclweb.org/P/P14/P14-2013.pdf]
He Z, Liu S, Li M, et al. Learning Entity representation for Entity Disambiguation[J]. annual Meeting of the A ssociation for C omputational Linguistics, 2013, (2):30-34.
[http://www.doc88.com/p-9039715083540.html]

2014

Miwa M, Sasaki Y. Modeling Joint Entity and Relation Extraction with table R epresentation[ C ]// C onference on Empirical Methods in N atural Language Processing. 2014:944-948.
[http://www.anthology.aclweb.org/D/D14/D14-1200.pdf]
Li Q, Ji H. Incremental Joint Extraction of Entity Mentions and relations[c]// annual Meeting of the Association for Computational Linguistics. 2014:402-412.
[http://www.anthology.aclweb.org/P/P14/P14-1038.pdf]
Mitchell T, Fredkin E. Never-ending Language L earning[M]// N ever-Ending L anguage L earning. Alphascript Publishing, 2014.
[http://www.ischool.drexel.edu/bigdata/bigdata2014/NELL_Mitchell_IEEE_Oct2014_distr.pdf]
Vrande, Denny, Tzsch M. Wikidata: A Free collaborative Knowledge base[J]. communications of the ACM, 2014, 57(10):78-85.
[https://cacm.acm.org/magazines/2014/10/178785-wikidata/fulltext]

2015

Hashimoto K, Stenetorp P, Miwa M, et al. Taskoriented learning of Word Embeddings for semantic Relation Classification[J], Computer Science, 2015:268-278.
[http://arxiv.org/abs/1503.00095]
Wang H, Fang Z, Zhang L, et al. Effective Online Knowledge Graph Fusion[M]// the semantic Web ISWC 2015. Springer International Publishing, 2015: 286-302.
[http://iswc2015.semanticweb.org/sites/iswc2015.semanticweb.org/files/93660257.pdf]
Otero-Cerdeira L, Rodríguez-Martínez F J, Gómez-Rodríguez A. Ontology Matching: A Literature Review[J]. Expert Systems with Applications, 2015, 42(2):949–971.
[http://disi.unitn.it/~p2p/RelatedWork/Matching/Cerdeira-Ontology%20Matching-2015.pdf]
Huang H, Heck L, Ji H. Leveraging Deep neural networks and Knowledge Graphs for Entity Disambiguation[J]. Computer Science, 2015:1275-1284. [http://arxiv.org/abs/1504.07678]
Zhou Z, Qi G, Wu Z, et al. A Platform-Independent A pproach for Parallel Reasoning with OWLEL Ontologies Using Graph Representation[C]// IEEE, I nternational C onference on TOOLS with A rtificial Intelligence. IEEE, 2015:80-87.
[http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=7372121]
Galárraga L, Teflioudi C, Hose K, et al. Fast Rule Mining in ontological Knowledge bases with aMiE+[J]. The VLDB Journal, 2015, 24(6):707-730. [https://dl.acm.org/citation.cfm?id=2846643]

2016

Miwa M, Bansal M. End-to-End Relation Extraction using LSTMs on S equences and tree structures[c]// annual Meeting of the association for computational linguistics. 2016:1105-1116.
[https://arxiv.org/abs/1601.00770]
Nickel M, Murphy K, Tresp V, et al. A Review of relational Machine learning for Knowledge Graphs[J]. Proceedings of the IEEE, 2016, 104(1):11-33. [http://arxiv.org/abs/1503.00759]
Nickel M, Rosasco L, Poggio T. Holographic Embeddings of Knowledge Graphs[J]// AAAI Conference on Artificial Intelligence. 2016:1955-1961. [http://arxiv.org/abs/1510.04935]

Datasets

DBpedia DBpedia 是一个大规模的多语言百科知识图谱，可视为是维基百科的结构化版本。DBpedia 使用固定的模式对维基百科中的实体信息进行抽取，包括 abstract、infobox、category 和 page link 等信息。图 2 示例了如何将维基百科中的实体“Busan”的 infobox 信息转换成 RDF 三元组。DBpedia 目前拥有 127 种语言的超过两千八百万个实体与数亿个 RDF 三元组，并且作为链接数据的核心，与许多其他数据集均存在实体映射关系。而根据抽样评测，DBpedia 中 RDF 三元组的正确率达 88%。DBpedia 支持数据集的完全下载。 [http://wiki.dbpedia.org/]
Yago 是一个整合了维基百科与 WordNet的大规模本体，它首先制定一些固定的规则对维基百科中每个实体的 infobox 进行抽取，然后利用维基百科的category进行实体类别推断（Type Inference）获得了大量的实体与概念之间的 IsA 关系（如：“Elvis Presley” IsA “American Rock Singers”），最后将维基百科的 category 与 WordNet 中的 Synset（一个 Synset 表示一个概念）进行映射，从而利用了 WordNet 严格定义的 Taxonomy 完成大规模本体的构建。随着时间的推移，Yago 的开发人员为该本体中的 RDF 三元组增加了时间与空间信息，从而完成了 Yago2的构建，又利用相同的方法对不同语言维基百科的进行抽取，完成了 Yago3的构建。目前，Yago 拥有 10 种语言约 459 万个实体，2400 万个 Facts，Yago 中 Facts的正确率约为 95%。Yago 支持数据集的完全下载。 [https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/downloads/]
Wikidata WikiData的目标是构建一个免费开放、多语言、任何人或机器都可以编辑修改的大规模链接知识库。WikiData由维基百科于2012年启动，早期得到微软联合创始人Paul Allen、Gordon Betty Moore基金会以及Google的联合资助。WikiData继承了Wikipedia的众包协作的机制，但与Wikipedia不同，WikiData支持的是以三元组为基础的知识条目（Items）的自由编辑。一个三元组代表一个关于该条目的陈述（Statements）。例如可以给“地球”的条目增加“<地球，地表面积是，五亿平方公里>”的三元组陈述。截止2016年，WikiData已经包含超过2470多万个知识条目。 [https://www.wikidata.org/wiki/Wikidata:Main_Page\]
BabelNet 是目前世界范围内最大的多语言百科同义词典，它本身可被视为一个由概念、实体、关系构成的语义网络（Semantic Network）。BabelNet 目前有超过 1400 万个词目，每个词目对应一个 synset。每个 synset 包含所有表达相同含义的不同语言的同义词。比如：“中国”、“中华人民共和国”、“China”以及“people’srepublic of China”均存在于一个 synset 中。BabelNet 由 WordNet 中的英文 synsets 与维基百科页面进行映射，再利用维基百科中的跨语言页面链接以及翻译系统，从而得到 BabelNet 的初始版本。目前 BabelNet 又整合了 Wikidata、GeoNames、OmegaWiki 等多种资源，共拥有 271 个语言版本。由于 BabelNet 中的错误来源主要在于维基百科与 WordNet 之间的映射，而映射目前的正确率大约在 91%。关于数据集的使用，BabelNet 目前支持 HTTP API 调用，而数据集的完全下载需要经过非商用的认证后才能完成。 [http://babelnet.org/]
ConceptNet 是一个大规模的多语言常识知识库，其本质为一个以自然语言的方式描述人类常识的大型语义网络。ConceptNet 起源于一个众包项目 Open Mind Common Sense，自 1999 年开始通过文本抽取、众包、融合现有知识库中的常识知识以及设计一些游戏从而不断获取常识知识。ConceptNet 中共拥有 36 种固定的关系，如 IsA、UsedFor、CapableOf 等，图 4 给出了一个具体的例子，从中可以更加清晰地了解 ConceptNet 的结构。ConceptNet 目前拥有 304 个语言的版本，共有超过 390 万个概念，2800 万个声明（statements，即语义网络中边的数量），正确率约为 81%。另外，ConceptNet 目前支持数据集的完全下载。 [http://conceptnet.io/]
Microsoft Concept Graph 是一个大规模的英文 Taxonomy，其中主要包含的是概念间以及实例（等同于上文中的实体）概念间的 IsA 关系，其中并不区分 instanceOf 与 subclassOf 关系。Microsoft Concept Graph 的前身是 Probase，它过自动化地抽取自数十亿网页与搜索引擎查询记录，其中每一个 IsA 关系均附带一个概率值，即该知识库中的每个 IsA 关系不是绝对的，而是存在一个成立的概率值以支持各种应用，如短文本理解、基于 taxonomy 的关键词搜索和万维网表格理解等。目前，Microsoft Concept Graph 拥有约 530 万个概念，1250 万个实例以及 8500 万个 IsA 关系（正确率约为 92.8%）。关于数据集的使用，MicrosoftConcept Graph 目前支持 HTTP API 调用，而数据集的完全下载需要经过非商用的认证后才能完成。 [https://concept.research.microsoft.com/Home/Introduction]
Freebase: Freebase是一个开放共享的、协同构建的大规模链接数据库。Freebase是由硅谷创业公司MetaWeb于2005年启动的一个语义网项目。2010年，谷歌收购了Freebase作为其知识图谱数据来源之一。Freebase主要采用社区成员协作方式构建。其主要数据来源包括维基百科Wikipedia、世界名人数据库NNDB、开放音乐数据库MusicBrainz，以及社区用户的贡献等。Freebase基于RDF三元组模型，底层采用图数据库进行存储。Freebase的一个特点是不对顶层本体做非常严格的控制，用户可以创建和编辑类和关系的定义。2016年，谷歌宣布将Freebase的数据和API服务都迁移至Wikidata，并正式关闭了Freebase。 [https://developers.google.com/freebase/]
Schema.org：Schema.org是2011年起，由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。Schema.org支持各个网站采用语义标签（Semantic Markup）的方式将语义化的链接数据嵌入到网页中。搜索引擎自动搜集和归集这些，快速的从网页中抽取语义化的数据。Schema.org提供了一个词汇本体用于描述这些语义标签。截止目前，这个词汇本体已经包含600多个类和900多个关系，覆盖范围包括：个人、组织机构、地点、时间、医疗、商品等。谷歌于2015年推出的定制化知识图谱支持个人和企业在其网页中增加包括企业联系方法、个人社交信息等在内的语义标签，并通过这种方式快速的汇集高质量的知识图谱数据。截止2016年，谷歌的一份统计数据显示，超过31%的网页和1200万的网站已经使用了Schema.org发布语义化的链接数据。其它采用了部分Schema.org功能的还包括微软Cortana、Yandex、Pinterest、苹果的Siri等。Schema.org的本质是采用互联网众包的方式生成和收集高质量的知识图谱数据。 [http://schema.org/]
LOD-Linked Open Data：LOD的初衷是为了实现Tim Berners-Lee在2006年发表的有关链接数据（Linked Data）作为语义网的一种实现的设想。LOD遵循了Tim提出的进行数据链接的四个规则，即：（1）使用URI标识万物；（2）使用HTTP URI，以便用户可以（像访问网页一样）查看事物的描述；（3）使用RDF和SPARQL标准；（4）为事物添加与其它事物的URI链接，建立数据关联。截止目前，LOD已经有1143个链接数据集，其中社交媒体、政府、出版和生命科学四个领域的数据占比超过90%。56% 的数据集对外至少与一个数据集建立了链接。被链接最多的是dbpedia的数据。比较常用的链接类型包括：foaf:knows、sioc:follows、owl:sameAs、rdfs:seeAlso、dct:spatial、skos:exactMatch等。LOD鼓励各个数据集使用公共的开放词汇和术语，但也允许使用各自的私有词汇和术语。在使用的术语中，有41%是公共的开放术语 [http://lod-cloud.net/]
WordNet：语言知识图谱，包含155, 327个单词，同义词集117,597个，同义词集之间由22种关系连接 [https://wordnet.princeton.edu/]
Zhishi.me ：Zhishi.me是中文常识知识图谱。主要通过从开放的百科数据中抽取结构化数据，已融合了百度百科，互动百科以及维基百科中的中文数据。 [http://zhishi.me/]
CN-DBPeidia：CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科。CN-DBpedia主要从中文百科类网站（如百度百科、互动百科、中文维基百科等）的纯文本页面中提取信息，经过滤、融合、推断等操作后，最终形成高质量的结构化数据，供机器和人使用。CN-DBpedia自2015年12月份发布以来已经在问答机器人、智能玩具、智慧医疗、智慧软件等领域产生数亿次API调用量。CN-DBpedia提供全套API，并且免费开放使用。大规模商务调用，提供由IBM、华为支持的专业、稳定服务接口。 [http://kw.fudan.edu.cn/cndbpedia/search/]
Medical Relation Detection Dataset in DIEBOLDS 一个医疗健康领域的知识图谱数据集，可以用来做医疗实体的抽取和检测，比如药物、成分、症状和疾病。 Lidong Bing 邴立东 [http://www.cs.cmu.edu/~lbing/#Datasets\]
Kinships：领域知识图谱，描述人物之间的亲属关系，104个实体， 26种关系, 10,800个三元组。 [https://archive.ics.uci.edu/ml/datasets/kinship]
UMLS：领域知识图谱，医学领域，描述医学概念之间的联系，135 个实体，49种关系，6,800个三元组。 [https://www.nlm.nih.gov/research/umls/]
XLORE双语百科知识图谱 XLore从异构的跨语言在线百科中抽取结构化信息，并将其分享在网络上。据我们所知，XLore是第一个大规模的中英文知识平衡的知识图谱。目前，XLore包含663,740个概念，56,449个属性和10,856,042个实例。这给构建任何双语言知识平衡的大规模知识图谱提供了一种新的方式。 [http://xlore.org/]
Knowledge Vault: 机器自动构建的知识图谱，4500万实体，4469种关系，2.7亿三元组 [https://research.google.com/pubs/pub45634.html]
ConceptNet5 ConceptNet是常识知识库。最早源于MIT媒体实验室的Open Mind Common Sense (OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立。ConceptNet主要依靠互联网众包、专家创建和游戏三种方法来构建。ConceptNet知识库以三元组形式的关系型知识构成。ConceptNet5版本已经包含有2800万关系描述。与Cyc相比，ConceptNet采用了非形式化、更加接近自然语言的描述，而不是像Cyc那样采用形式化的谓词逻辑。与链接数据和谷歌知识图谱相比，ConceptNet比较侧重于词与词之间的关系。从这个角度看，ConceptNet更加接近于WordNet，但是又比WordNet包含的关系类型多。此外，ConceptNet完全免费开放，并支持多种语言。 [http://www.openkg.cn/dataset/conceptnet5-chinese]

初步版本，水平有限，有错误或者不完善的地方，欢迎大家提建议和补充，会一直保持更新，本文为专知内容组原创内容，未经允许不得转载，如需转载请发送邮件至[email protected] 或联系微信专知小助手（Rancho_Fang）

敬请关注http://www.zhuanzhi.ai 和关注专知公众号，获取第一手AI相关知识

[转发]知识图谱 （Knowledge Graph） 专知 荟萃

知识图谱 （Knowledge Graph） 专知 荟萃

入门学习

进阶论文

1991

1998

2001

2005

2008

2009

2010

2011

2013

2014

2015

2016

Tutorial

综述

视频教程

代码

领域专家

Datasets

猜你喜欢

[转发]知识图谱（Knowledge Graph）专知荟萃

知识图谱（Knowledge Graph）专知荟萃