大数据融合技术：问题与挑战

本文为《大数据融合研究：问题与挑战》的总结。

概述

数据的特点：

多元性——数据类型多样；数据内容“维度”多样；数据所涉及的知识范畴的“粒度”多样
演化性——指数据随时间或解释的变化而变化的特性
真实性——由实体的同名异义、异名同义表示以及关系的变化引起
普适性——指在认知范围内达成共识的特性，例如“老师”和“蜡烛”具有该特性

数据湖：数据集成的对象，即数据与知识的复合体。传统的关系型数据是先有模式（表）再有数据，而数据湖是先有数据再有模式。

大数据融合：建立数据间、信息间、知识片段间多维度、多粒度的关联关系，实现更多层面的知识交互，从而聚敛出数据湖中的“波纹”（即语义关联的紧密程度）。

大数据融合存在的问题：

割裂的多源异构数据
数据规模与数据价值的矛盾
跨媒体、跨语言的关联
实体与关系的动态演化
知识的隐含性

现有技术

普遍采用3V（海量、高速、类型多样）特性下的集成技术。关键技术：

模式/本体对齐：利用属性名称、类型、值的相似性以及属性之间的邻接关系来寻找源模式与中介模式的对应关系。所需关键技术：
- 演化模型——检测模式映射的演化，尽力而为、模糊回答
- 概率模型——将中介模式按语义表示成源属性的聚类，源模式会出现与其有不同程度对应关系的多个候选中介模式，然后根据查询请求为每个候选中介模式分配一个备选概率来确定最佳映射
- 深度匹配——基于潜在的语义匹配
实体链接：关键在于实体识别，主要是识别相似实体（相似：多个命名实体可对应到一个真实实体）和消除实体歧义（一个实体可对应多个真实实体）。可分为：
- 面向非结构化文本的命名实体识别与消歧——先后出现针对单查询、文档、短文档及社会媒体3种类型的识别方法
- 面向结构化数据的的记录链接——从数据集中识别和聚合表示现实世界中同一实体的记录
- 结构化与非结构化数据之间的复杂数据实体关联——核心为表象消歧，即建立结构化与非结构化实体之间的链接关系
冲突解决：从所有冲突中甄别正确的值。这些冲突可分为：
- 模式冲突——由数据源的模式异构引起
- 标识符冲突——指异名同义现象
- 数据冲突——同一属性具有多种不同的值
关系推演：自动找到关联数据中的路径模式和自然语言中的关系词汇之间的对应关系。关系推演包括以下3种情况：
- 已知一个实体和一条关系推断另一个实体，或已知两个实体预测之间的关系——①
- 实体间间接关系的推理——②；①、②采用嵌入表示和图特征模型进行关系的推理与预测
- 关系的演化度量——实体关系的演化，表现在聚类随时间的变化，涉及软聚类、2阶段聚类方案扥等

现有技术的局限性

实体链接技术的局限性

问题1：现有的实体链接基本是实体识别、冲突解决、共指识别串行化执行，忽略了此三步之间的彼此相互影响。这样存在三个方面的弊病：

实体识别过程中产生的错误会依次向后续过程传播，且该错误不可恢复
共指识别和冲突解决的结果不能向前反馈
实体识别过程和冲突解决过程可能会产生不一致输出

实际中这三者相互影响：实体识别为冲突解决和共指识别提供更多的特征，同时冲突解决和共指识别为实体识别提供已消歧的链接信息辅助聚类。针对该弊病，现在研究热点为交叉迭代。

问题2：共指识别还面临实体关系的演化带来的挑战。已有方法没有考虑可靠性和更新程度、局部决策对与之关联表象的影响，并且直接面向动态数据，演化模型依赖于训练数据集和演化证据的质量，匹配精度高，但是时间代价在大数据环境下无法承受。

问题3：复杂实体关联方法在适用范围、准确率等方面都存在不足，主要有：

非结构化数据一般不显式包含属性名，其实体属性不一定到出现在结构化数据中，结构化数据中实体属性也不一定能在非结构化数据中找到对应
新实体的发现是一大难点，关键在于相似性判断阈值的确定没有有效解决办法
大数据融合面向跨语言融合迈进，该方面研究成果不多

冲突解决技术的局限性

问题1：消歧方法依赖于实际参照数据（数据标注）的可用性，参照数据缺乏领域性和针对性，使得实用性变窄

问题2：信息的质量直接引发冲突

关系推演技术的局限性

问题1：关系推理目前只考虑了直接关系和路径关系的推理，缺乏对关系之间复杂模式的考虑

问题2：演化建模对冲突识别与解决影响很大，虽然现有方法捕获了实体属性值的变化，但没有考虑属性值变化的复杂模式