金融知识图谱

知识图谱与机器学习技术对比

相似之处：

都使用海量标注数据集
都以替代人类进行分析实体特征为目标
知识图谱中需要用到机器学习，机器学习也需要知识存储

相异之处：

知识图谱不需要训练
知识图谱可以容忍比较「脏」的异构数据
知识图谱推理的中间结果很容易让人类理解

建造流程

知识图谱建造的流程一般是: 脏数据 -> 干净数据 -> 文档树/表 -> 图谱 -> 本体 -> 逻辑。对于知识图谱的建造范式有多种看法，有的着重于推理能力，有的着重于知识的表示能力，有的着重于工程实现。实际操作过程中我们在考虑成本的同时，一个典型的建造过程如下:

首先信息抓取的系统要能在只替换少量代码的情况下适配大量异构、不断更新的数据源
从股转中心、证监会、微博、文档OCR等渠道抓取的信息是脏（带噪音）的，需要有比较宽容的方法能对不同的数据进行清洗
清洗过的数据根据应用需要，格式化到一定的程度，同时根据成本限制保留非格式化的部分
装载格式化数据到图谱里，根据数据内容或数据特性添加它与其他数据的关系
从数据中抽象出本体，与人类拥有的世界知识相对应
从关联中得到逻辑，这步成本比较高昂，根据应用可简化

图论数据库与超图

超图（Hyper-Graph）是对传统图论的扩展，无向超图中的边的定义是节点的笛卡尔积，有向超图更复杂一些，但本文中我们更关心工程实现，因此对有向超图和图上操作的定义将采用声明式声明式图论语言（Cypher）给出。
当我们将超边视作高维球体、节点处在球体内，有向超图中的超边可以具有梯度、散度、旋度等描述维度，可以用两个节点之间的正势描述出度，负势描述入度。例如具有散度的一条超边可以描述一种从一个源节点（Source）指向多个节点的关系，并且能简单地定量描述出源节点到其他节点的出度，类似地，具有梯度的超边可以描述对对多关系，具有旋度的一条超边可以描述出「A男喜欢B女，B女喜欢C男，C男喜欢D女，D女喜欢A男」的关系。
有向超图的表述能力比一般有向图更适合金融场景，例如对供应链中各企业本体的连接就可以选用带散度的有向超图，势的方向由上游企业指向下游企业。当供应关系发生变化，可以在「融贯超边」内使表示旧的供应关系的超边以 100% 的出度指向新的供应关系。

知识图谱与机器学习技术对比

相似之处：

相异之处：

建造流程

图论数据库与超图

猜你喜欢