UCAS-AI学院-知识图谱专项课-第6讲-课程笔记

实体识别

信息抽取概述

  • 知识获取
    • 输入:领域知识本体 / 海量数据
    • 输出:领域实例化知识(实体集合、时间集合、事件关系/属性、事件关系)
    • 主要技术:信息抽取
  • 信息抽取来源:网络文本信息结构
    • 结构化数据
    • 半结构化数据
    • 纯文本(主要,非常重要)
  • 信息抽取:从自然语言文本中抽取指定欸性的实体、关系、事件等事实信息,并形成机构化数据输出的文本处理技术
  • 主要任务
    • 实体识别
    • 实体消歧
    • 关系抽取
    • 事件抽取
    • 事件关系判别

信息抽取的基础:分词和词性标注

  • 中文分词:在中文文本中词与词之间加上标记
  • 词性标注PoS:确定当前上下文中每个词是名词、动词、形容词或其他词性的过程
  • 分词的重要性
    • 汉语句子分析的基础
    • 中文语义与字词搭配相关
  • 分词难点
    • 分词的界限模糊
    • 歧义切分(交集型歧义)
    • 未登录词识别(命名实体、专业术语、新词语)
  • PoS难点
    • 词性兼类
  • 中文分词方法
    • 有词典切分(一般基于规则) vs. 无词典切分
    • 基于规则的方法 vs. 基于统计的方法
  • 有词典切分的分词方法
    • 词典匹配
    • 正向最大匹配法
      • 算法P24
    • 反向最大匹配法
      • 与上述算法对应
    • 最短路径法
      • 算法P25
    • 优点
      • 简单一行
      • 仅需要少量语言资源
    • 缺点
      • 歧义消解能力差
      • 切分准确率不高
  • 统计方法·生成式方法
    • 建立样本生成模型,再进行间接推理
    • HMM
      • 马尔可夫过程:当前状态由前 t 1 t - 1 个时刻的状态决定
      • 一阶马尔可夫假设:当前状态只与前一个状态相关
      • 不动性假设:一阶假设独立于时间
      • 表示成状态转移图,每个节点所有出弧概率和为1
      • 序列概率 P ( S 1 , , S T ) = π S 1 t 2 p ( S t S t 1 ) P(S_1, \dots, S_T) = \pi_{S_1} \prod_{t \ge 2} p(S_t| S_{t - 1})
      • 隐马尔可夫模型:双重随机构成,由状态序列产生观察序列
    • HMM的三个问题
      • 概率计算问题,给定观察序列,计算当前HMM下的概率
      • 预测问题:给定观察序列的最佳状态序列
      • 学习问题:给定观察序列,估计最大概率的模型参数
    • HMM:分词 + 词性标注
      • 分词结果作为观察序列
      • 词性标注作为状态序列
      • N即词性标记符号个数
      • M每个状态课输出不同词汇的个数
    • 求解目标
      • 分词结果: O ^ = arg max O p ( O μ ) \widehat O = \arg \max_O p(O | \mu)
      • 词性标注结果: Q ^ = arg max Q p ( Q O , μ ) \widehat Q = \arg \max_Q p(Q | O, \mu)
    • 模型参数学习
      • 监督训练:直接统计
      • 无监督训练:E-M方法
    • 优点:在预料规模足够大,覆盖领域足够大时有较高准确率
    • 缺点:预料的规模和覆盖领域不好把握,模型实现复杂
  • 统计方法·判别式方法
    • 优先样本条件下,建立判别函数
    • 分词问题转化为判别分类问题
    • 确定每个子在此种位置问题(词首B、词中M、词尾E、独字词S)
    • 最大熵模型
      • 熵增原理
      • 最大熵理论:在已知条件下,熵最大的事物最接近真实状态
      • 约束条件:标注的训练集
    • 基于最大熵模型的中文分词
      • 为每个字标注BMES
      • 生成最大熵训练实例
      • 参数训练(生成实例——训练工具——参数训练)
      • 测试(四个实例——激活标记——计算概率——取最大概率标记)
    • 搜索最优标注路径
    • 基于神经网络的中文分词
      • BiLSTM + CRF
    • 优点:精度高、新词识别率高
    • 缺点:训练速度慢、需要设计模板以及人工标注语料、性能与之相关
  • 字典 + 统计的方法
    • 用字典辅助OOV词语识别
  • 主要问题
    • 语料规模小
    • 覆盖领域少
    • 实体和专有名词识别性能低

命名实体识别

  • 命名实体
    • 人名、机构名、地点名称
    • 时间、日期、百分比、货币
  • 知识图谱中的命名实体:知识图谱是由众多的实体以及实体之间的关系构成的
  • 两个任务
    • 实体边界识别
    • 实体类别标注
  • 特点
    • 时间、日期、货币、百分比有明显规律
    • 人名、地名、机构名识别难度大
      • 数据大不可枚举
      • 无明显规律
      • 常用缩写
  • 英文人名识别
    • 具有明显特征
    • 比较容易
  • 中文人名识别
    • 难点
      • 规律不明显
      • 姓氏和名字可单独使用指定
      • 普通字词
      • 缺乏启发标记(与上下文成词)
    • 组合
      • 前缀
      • 后缀
    • 特点
      • 各部分有一定规律
      • 内部组合规律
      • 上下文构成规律
  • 中文地名识别
    • 难点
      • 数量大、缺乏明确规范的定义
      • 出现情形复杂
    • 特点
      • 绝大部分是两个字
      • 常与方位词连用
  • 中文机构名识别
    • 难点
      • 含有大量的人名、企业字号等专有名称
      • 用词广泛
      • 长度不固定
      • 存在不稳定
    • 特点
      • 偏正式复合词
      • 定语 + 名词性中心语
  • 音译名识别
    • 难点
      • 很难划分出结构
      • 音译规律不尽相同
      • 上下文规律较差
  • 方法
    • 有词典识别方法
      • 词典匹配
      • 正/反向最大匹配法
      • 最短路径法
    • 统计识别方法
      • 生成式方法HMM
      • 判别式方法CRF
  • 条件随机场
    • 给定一组输入随机变量下另一组输出随机变量的条件概率分布模型
    • 假设输出随机变量构成马尔可夫随机场
    • 用于序列结构标注问题
    • X X Y Y 是两组随机变量, P ( Y X ) P(Y|X) 在给定 X X Y Y 的条件概率分布, Y Y 构成无向图表示的马尔可夫随机场(只与相连节点相关),则称条件概率 P ( Y X ) P(Y|X) 为条件随机场
    • p ( Y v X , Y w , w v ) = p ( Y v X , y w , w v ) p(Y_v | X, Y_w, w \neq v) = p(Y_v | X, y_w, w \sim v)
    • 线性链CRF:两组条件变量均为线性链表示随机序列
  • HMM vs. ME vs. CRF
    • HMM,生成式模型,只用两个矩阵建模(转移矩阵和生成矩阵),无法利用复杂特征
    • ME,判别式模型,可以使用任意复杂特征(特征函数),但是只能得到观察序列与某一状态的关系,状态间关系无法利用
    • CRF,判别式模型,可以使用任意复杂特征,可以建模序列和多个状态的关系,考虑了状态之间的关系
  • 基于CRF的NER
    • 对每个汉字标注对应实体模型的BIO标记
    • 特征函数:不同种类的特征(上下文、词性、词表)
    • 词表:生成实例——送入工具——参数训练
    • 测试:生成实例——激活特征——计算特征概率——取最大概率标记
  • LSTM + CRF的NER
    • 利用神经网络学习文本中特征
    • LSTM产生特征——CRF优化目标函数——产生实体类别
  • 汉语分词CWS + NER
    • 分词错误可能积累到NER中
  • GAN based NER
    • 使用丰富的分词数据提升NER性能
  • 融入词典的NER
    • Lattice LSTM获取词信息

细粒度实体分类

  • Entity Typing
  • 更细致的分类,用于提升性能
  • 类别特点
    • 更多
    • 更细
  • 难点
    • 类别制定
    • 语料标注
    • 实体识别方法
  • 方法
    • 无监督
    • 有监督
  • 无监督方法
    • KnowItAll:规则抽取(人工制定,搜索引擎扩展),实体名抽取(互联网抽取)、实体名验证(搜索引擎验证)
  • 有监督方法
    • 特征工程
    • 神经网络
  • 思路:上下文、知识库

开放领域实体识别

  • 不限制实力类别
  • 不限制目标文本
  • 给定某一类别实体实例,从网页中抽取同一类别其他类别实体
  • 思路:中自此与目标词在网页中有相同或类似的上下文
    • 种子词——模板——更多同类实体
  • 主要方法
    • Query Log
    • 网页结构
    • 多数据源融合
发布了16 篇原创文章 · 获赞 0 · 访问量 75

猜你喜欢

转载自blog.csdn.net/cary_leo/article/details/105620237