金融知识图谱

知识图谱与机器学习技术对比

相似之处:

  1. 都使用海量标注数据集
  2. 都以替代人类进行分析实体特征为目标
  3. 知识图谱中需要用到机器学习,机器学习也需要知识存储

相异之处:

  1. 知识图谱不需要训练
  2. 知识图谱可以容忍比较「脏」的异构数据
  3. 知识图谱推理的中间结果很容易让人类理解

建造流程

知识图谱建造的流程一般是: 脏数据 -> 干净数据 -> 文档树/表 -> 图谱 -> 本体 -> 逻辑。对于知识图谱的建造范式有多种看法,有的着重于推理能力,有的着重于知识的表示能力,有的着重于工程实现。实际操作过程中我们在考虑成本的同时,一个典型的建造过程如下:

  1. 首先信息抓取的系统要能在只替换少量代码的情况下适配大量异构、不断更新的数据源
  2. 从股转中心、证监会、微博、文档OCR等渠道抓取的信息是脏(带噪音)的,需要有比较宽容的方法能对不同的数据进行清洗
  3. 清洗过的数据根据应用需要,格式化到一定的程度,同时根据成本限制保留非格式化的部分
  4. 装载格式化数据到图谱里,根据数据内容或数据特性添加它与其他数据的关系
  5. 从数据中抽象出本体,与人类拥有的世界知识相对应
  6. 从关联中得到逻辑,这步成本比较高昂,根据应用可简化

图论数据库与超图

超图(Hyper-Graph)是对传统图论的扩展,无向超图中的边的定义是节点的笛卡尔积,有向超图更复杂一些,但本文中我们更关心工程实现,因此对有向超图和图上操作的定义将采用声明式声明式图论语言(Cypher)给出。
当我们将超边视作高维球体、节点处在球体内,有向超图中的超边可以具有梯度、散度、旋度等描述维度,可以用两个节点之间的正势描述出度,负势描述入度。例如具有散度的一条超边可以描述一种从一个源节点(Source)指向多个节点的关系,并且能简单地定量描述出源节点到其他节点的出度,类似地,具有梯度的超边可以描述对对多关系,具有旋度的一条超边可以描述出「A男喜欢B女,B女喜欢C男,C男喜欢D女,D女喜欢A男」的关系。
有向超图的表述能力比一般有向图更适合金融场景,例如对供应链中各企业本体的连接就可以选用带散度的有向超图,势的方向由上游企业指向下游企业。当供应关系发生变化,可以在「融贯超边」内使表示旧的供应关系的超边以 100% 的出度指向新的供应关系。

猜你喜欢

转载自blog.csdn.net/qq_30262201/article/details/78801116