UCAS-AI学院-知识图谱专项课-第5讲-课程笔记

知识体系构建与知识融合

知识体系构建

知识体系

  • 知识体系:对于知识数据的描述和定义——“元数据”
  • 包含内容
    • 词汇、类别、概念的定义和描述
    • 概念之间的相互关系(分类关系 / 非分类关系)
    • 公理(抽象规则)
  • 与知识库的关系
    • 知识体系:共享概念化的框架规范
    • 知识库:服从于知识体系规定的知识单元载体
  • 常用组织形式
    • 本体Ontology
      • 特定领域内信息组织的形式,领域知识规范的抽象和描述
      • 对概念、属于及其相互关系的规范化描述
      • 真实世界的描述模型
      • 使用合适的逻辑形式化
      • 定义: C , I , R , T , V , , , , = \langle C, I, R, T, V, \le, \bot, \in, = \rangle
        • C C ,类别集合
        • I I ,实例集合
        • R R ,关系集合
        • T T ,数据类型集合
        • V V ,属性下的具体值集合
        • \le ,专门化关系,存在于类别之间、关系之间以及数据类型之间
        • \bot ,不包含关系,存在于类别之间、关系之间以及数据类型之间
        • \in ,实例化关系,存在于实例与类别之间、值与数据类型之间
        • = = ,赋值关系,存在于 I × R × ( I V ) I \times R \times (I \cup V)
      • 特点
        • 概念化:系统蕴含的语义结构
        • 显式化:显式定义
        • 规范化:机器可读
        • 公理化:一个群体共同认可
      • 应用
        • 管理知识(定义、存储、分类)
        • 减少歧义
        • 推理
      • 问题
        • 层级体系严格,出现二义性的问题,以及isa还是partof的问题
      • 比较
        • 树状结构,上下位严格IsA
        • 优点,可以适用于知识推理
        • 缺点,无法表示概念的二义性
    • 分类体系Taxonomy
      • 不严格:领域相关即可
      • 比较
        • 树状结构,上下位非严格IsA
        • 优点,可以表示概念的二义性
        • 缺点,不适用于推理,无法避免概念冗余
    • 开放标签Folksonomy / Metadata
      • 取消层级关系
      • 概念类别冗余
        • 存在多个表征同一概念的于一标签
        • 类别标签由用户提供
      • 比较
        • 类别标签,更加开放
        • 优点,能够涵盖更多的概念
        • 缺点,如何进行标签管理

知识体系构建

  • 目标

    • 术语、概念、类别
    • 概念、类别层级体系
    • 属性关系(继承)
    • 约束(定义域、值域)
  • 人工构建方法

    • 确定领域任务(非通用、可穷举)
    • 体系复用
    • 定义术语、概念、类别
    • 确定分类体系
    • 确定关系、属性
    • 定义约束
  • 自动构建方法

    • 任务
      • 挖掘术语、概念、类别
      • 构建概念、类别层级体系
      • 挖掘属性关系
    • 方法
      • 基于结构化、半结构化数据的知识体系构建(模板挖掘——模板学习、噪声滤除)
        • 结构化数据,置信度高,但规模较小
          • 人工模板(同一网站具有唯一性)
        • 半结构化数据,置信度较高,规模较大,形式多样,还有噪声
          • 页面具有相似性,一定程度可以复用
            • 模板学习和噪声滤除
      • 基于非结构化数据的知识体系构建
        • 纯文本,置信度低,复杂多样,规模很大
    • 注意
      • 目前不可直接使用、可以节省人力
      • 通常只需要构建一次,人工构建实际可行
  • 半结构化数据:学习模板,抽取实体属性和相关属性值

    • 半结构化信息快识别定位
      • 属性名和属性值连续出现,结构连续出现
      • 属性名确定,人工模板(结构化数据)
      • 属性名与类别的对齐 score ( i t e m , c l a s s ) = count ( i t e m , c l a s s ) count ( i t e m ) count ( c l a s s ) \operatorname{score}(item, class) = \frac {\operatorname{count}(item, class)}{\operatorname{count}(item) \operatorname{count}(class)}
      • 根据类别标签回标
    • 抽取模板学习
      • 前缀:属性名到上一个属性名的最长公共后缀
      • 后缀:属性名到下一个属性名的最长公共后缀
      • 分隔符:属性名到下一个属性名的最长公共前缀
      • 置信度估计
        • 模板与属性名排序
        • 高质量属性名产生的模板质量高
        • 高质量模板抽取属性名质量高,所在网页质量高
        • 高质量网页产生的模板质量高,抽取属性名质量高
        • 构建一个图(属性名种子、文档、模板),利用随机游走进行排序,计算每个结点的置信度
        • r i = c W ~ r i + ( 1 c ) e i \vec r_i = c \widetilde {\bold W} \vec r_i + (1 - c) \vec e_i
          • r i \vec r_i ,排序向量(随机游走 i i 步)
          • W ~ \widetilde W ,邻接矩阵
          • e i \vec e_i ,先验向量(是否已知为属性名)
    • 属性名、属性值抽取
    • 基于Bootstrapping的抽取
      • 属性名和模板相互促进
      • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qUXQrAMP-1587294218451)(assets/image-20200331150456397.png)]
    • 召回率
      • 已有属性名进行定位,召回率低
      • 改进——利用模板实现块定位
      • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oiqZoM6G-1587294218462)(assets/image-20200331150545981.png)]
  • 非结构化数据

    • 术语、概念抽取
      • 生成术语候选
        • n-grams
          • 枚举所有可能性
          • 通过ranking滤除噪声
        • 基于模板的抽取
          • 名词+名词的模板等
      • 候选排序、过滤噪声
        • 基于频率统计的方法
          • C-value / NC-value:使用这两个值对短语置信度进行估计
            • C-value,衡量预料中出现的高频的最长短语, Cvalue = { log 2 a f ( a ) if  a = g log 2 a ( f ( a ) 1 C ( a ) k C ( a ) f ( k ) ) otherwise \operatorname{Cvalue} = \begin{cases}\log_2|a|f(a) & \text{if } |a| = g \\ \log_2|a|(f(a) - \frac 1 {|C(a)|}\sum_k^{C(a)} f(k)) & \text{otherwise} \end{cases}
            • C ( a ) C(a) 为包含 a a 的候选集合(包含 a a 的更长词), g g 为预设的候选最长长度
            • NC-value,额外考虑上下文信息, NCvalue ( a ) = α Cvalue ( a ) + ( 1 α ) ( t C a f a ( t ) f ( t ) n ) \operatorname{NCvalue}(a) = \alpha \operatorname{Cvalue}(a) + (1 - \alpha) (\sum_{t \in C_a} f_a(t) \frac {f(t)}n)
            • C α C_\alpha 为上下文词集合, f a ( t ) f_a(t) t t a a 上下文出现的频率, n n 为语料中所有词的个数
          • 搜索引擎验证,双引号强制全词搜索
          • TF-IDF
          • Domain Relevance,抽取领域相关的候选
            • DR ( t , k ) = p ( t D k ) i m p ( t D i ) \operatorname{DR}(t,k) = \frac{p(t | D_k)}{\sum_i^m p(t | D_i)}
            • p ( t D k ) p(t | D_k) 表示候选 t t 在领域 D k D_k 出现的概率
            • 非术语,不同领域分布相似;术语,在目标领域内具有显著性
          • 领域公式,Domain Consensus(信息熵)
            • RC ( t , k ) = d D k p ( t d ) log 1 p ( t d ) \operatorname{RC}(t, k) = \sum_{d \in D_k} p(t | d) \log \frac 1 {p(t | d)}
            • 非术语,不同领域出现概率类似;术语,不同领域概率不同,由明显的语义特性(熵会很大)
        • 基于主题模型的方法
          • 聚类文档中同样主题的词
          • 篇章中的词,以一定概率从主题中选取
          • 不同的主题,词语出现的概率分布不同
          • 提取不同主题中出现概率较大的词语
          • 计算主题上的相似度
        • 基于图排序的方法
          • 借助PageRank的思想:被很多网页链接的网页更重要,被权值更高的网页链接,其重要性会增加
          • TextRank:判断相关关系,更具共现关系,取一定长的窗判断是否共现
          • 术语选择,随机游走计算每个词语的重要程度,按照该程度选择术语
      • 可以认为是实体扩展的过程
        • 给定一些实体(种子),自动挖掘与之相关、相似的同类型实体
        • 基本假设:同类型的实体具有相同、相似的上下文
        • Bootstrapping
    • 同义词挖掘
      • 目标:将相同 / 相近语义的术语聚合在一起,形成概念
      • 基于网络挖掘的同义词挖掘方法
      • 基于词典挖掘的同义词挖掘方法(WordNet,HowNet)
      • 基于聚类的同义词挖掘方法
      • 层次聚类
        • 自底向上过程
        • 距离可以考虑使用语义表示计算(空间投射)
    • 关系挖掘
      • 上下位关系
        • 基于模板学习的上下位关系抽取
          • Bootstrapping:学习——过滤——上下位关系抽取——回标产生更多模板
          • 模板质量评估:图估计,质量越高的模板抽取的概念以及概念关系越准确;置信度高的概念以及概念关系所在的模板置信度越高
        • 基于词表示学习的上下文关系抽取
          • 利用词的向量表示,计算词之间的上下文关系
          • x x 及其上位词 y y ,学习映射 Φ \Phi ,使得 Φ = arg min Φ 1 N Φ x y 2 \Phi^\ast = \arg \min_\Phi \frac 1N \sum \|\Phi x - y\|^2
          • 对一个新词 z z ,其上位词 w w 满足 Φ z w 2 δ \|\Phi z - w\|^2 \le \delta
          • 词向量的运算很难只体现上下位关系
      • 属性关系
        • 针对某一概念、实体,抽取其属性关系,通常限定领域或限定类别
        • 基于句法、词性的模板抽取方法
        • 面对特定领域内文本的属性名抽取,可以利用额外信息
        • 非监督的属性关系抽取
          • surface / syntactic模板,获取实体间的语义关系表示
          • 在此基础上对语义关系表示进行聚类,进而实现非监督的关系抽取
    • 已有Ontology
      • SUMO,目前最大的公共本体
      • GeoNames

知识融合

知识融合

  • 整个不同语言、不同结构、不同模态的知识资源
  • 差异性
    • 属性定义不统一
    • 分类体系不统一——需要对齐
    • 来源不同知识源的实体共指
    • 跨语言知识融合
  • 应用:多知识库问答
  • 任务定义:对于两个知识图谱 O O O O^\prime ,其中 I I I I^\ast 分别为两个图谱中的元素,知识融合的目标就是加你三元组 I , I , r \langle I, I^\prime, r \rangle ,其中 r r 表示元素之间的关系,包括 = \le \ge = \bot
  • 目标:将两个知识图谱融合为一个统一、一致、简洁的形式,为使用不同知识图谱的应用程序之间的交互建立互操作性
  • 任务分解
    • 本体匹配
      • 侧重发现等价或相似的类、属性、或关系
      • 本体对齐
    • 实体对齐
      • 侧重发现指称真实世界相同对象的不同实例
      • 实体消解、实例匹配
  • 核心问题:语义匹配(不同字符、语言、结构、表达)
    • 文本相似性
      • 字形、语言、语义
      • 文本本身、借助外部资源
    • 结构相似性
      • 上下位层级关系、Domain、Range
      • 单对匹配 / 集体(collective)匹配

知识融合基本方法

  • 基于文本相似度的映射方法
    • 基于字符串匹配的映射方法
      • 汉明距离: δ ( x , t ) = ( i s [ i ] t [ i ] ) + s t max ( s , t ) \delta(x, t) = \frac {(\sum_i s[i] \neq t[i]) + ||s|-|t||}{\max(|s|,|t|)} ,对应位置不同字符的个数
      • 子串相似度:对 x x y y ,最长公共子串为 t t ,相似度为 σ ( x , y ) = 2 t x + y \sigma(x, y) = \frac {2 |t|} {|x| + |y|}
      • n-gram相似度: ngram ( x , n ) \operatorname{ngram}(x, n) 表示字符串 x x 中长度为 n n 的子串集合,有相似度 σ ˉ ( s , t ) = ngram ( s , n ) ngram ( t , n ) min ( s , t ) n + 1 \bar \sigma (s, t) = \frac {\operatorname{ngram}(s, n) - \operatorname{ngram}(t, n)}{\min(|s|, |t|) - n + 1}
      • 编辑距离:插入、删除、替换的最少操作数(NLP有讲)
    • 基于语言处理的映射方法
      • 语言规范化:词切分、词形还原、停用词消除
    • 基于语义匹配的映射方法
      • 获取语义向量表示,基于距离度量函数计算相似度
      • σ V ( s , t ) = i V s i × t i i V s i 2 × i V v i 2 \sigma_V(s, t) = \frac {\sum_{i \in |V|} \vec s_i \times \vec t_i}{\sqrt{\sum_{i \in |V|} \vec s_i^2 \times \sum_{i \in |V|} \vec v_i^2}}
      • 核心问题:如何得到语义向量
        • 利用外部资源(WordNet、HowNet)
          • WordNet中的直接标注信息(上下位、同义、反义)
          • WordNet中的Synset标注构建语义向量
        • 基于搜索引擎的语义相似度计算(返回文档数)
          • NGD ( x , y ) = max { log f ( x ) , log f ( y ) } log f ( x , y ) log M min { log f ( x ) , log f ( y ) } \operatorname{NGD}(x, y) = \frac {\max\{\log f(x), \log f(y)\} - \log f(x, y)}{\log M - \min\{\log f(x), \log f(y)\}}
          • M M 为搜索引擎所有文档树数
      • 基于词向量表示的语义匹配
        • 利用上下文信息学习词的词表示向量
      • 相似度similarity不等价于相关度relevance
        • 同义关系 vs. 搭配关系
  • 基于结构相似度的映射方法
    • 基于内部结构的映射方法
      • 面对实体内部结构信息
        • 属性的Domain和Range
        • 常用于对齐前的预处理,去掉明显不能对齐的实体
    • 基于外部结构的映射方法
      • 基于图的图谱结构计算两个结点的相似度
      • 基本假设:如果两个结点的邻居节点是类似的,这两个结点也是类似的
      • 基于层级结构的相似度计算方法
        • 拓扑结构相似度 δ ( e , e ) = min c o [ δ ( e , c ) + δ ( e , c ) ] \delta(e, e^\prime) = \min_{c \in o} [\delta(e, c) + \delta(e^\prime, c)] (边的数量表示路径)
        • 规范化距离 δ ˉ ( e , e ) = δ ( e , e ) max c , c o δ ( c , c ) \bar \delta(e, e^\prime) = \frac {\delta(e, e^\prime)}{\max_{c, c^\prime \in o}\delta(c, c^\prime)}
        • 基于共享父类的相似度 σ ( c , c ) \sigma(c, c^\prime) (父类集合的交并比)
        • 基于树编辑距离?
    • 基于网络结构表示学习的映射方法
      • 直接将实体和关系的向量表示进行相似度计算,学习深度特征
      • TransE
      • 联合知识表示学习(对已知可链接实体对两个KG进行约束)
      • 双向监督训练(单独训练,预链接数据交替进行监督)
  • 方法融合
    • 多个方法一起使用
    • 线性融合,不同相似度计算方法加权融合
    • 迭代式融合
    • 投票策略(解决不同方法之间的冲突)
    • 全局寻优、联合推断(贝叶斯网络)
  • 大规模知识图谱融合
    • 效率问题
    • 冲突问题
    • 分而治之?如何划分
  • 评价
    • P,R,F1
    • 基于检索的评价指标TopN
发布了16 篇原创文章 · 获赞 0 · 访问量 76

猜你喜欢

转载自blog.csdn.net/cary_leo/article/details/105620208