实体识别

信息抽取概述

知识获取
- 输入：领域知识本体 / 海量数据
- 输出：领域实例化知识（实体集合、时间集合、事件关系/属性、事件关系）
- 主要技术：信息抽取
信息抽取来源：网络文本信息结构
- 结构化数据
- 半结构化数据
- 纯文本（主要，非常重要）
信息抽取：从自然语言文本中抽取指定欸性的实体、关系、事件等事实信息，并形成机构化数据输出的文本处理技术
主要任务
- 实体识别
- 实体消歧
- 关系抽取
- 事件抽取
- 事件关系判别

信息抽取的基础：分词和词性标注

中文分词：在中文文本中词与词之间加上标记
词性标注PoS：确定当前上下文中每个词是名词、动词、形容词或其他词性的过程
分词的重要性
- 汉语句子分析的基础
- 中文语义与字词搭配相关
分词难点
- 分词的界限模糊
- 歧义切分（交集型歧义）
- 未登录词识别（命名实体、专业术语、新词语）
PoS难点
- 词性兼类
中文分词方法
- 有词典切分（一般基于规则） vs. 无词典切分
- 基于规则的方法 vs. 基于统计的方法
有词典切分的分词方法
- 词典匹配
- 正向最大匹配法
  - 算法P24
- 反向最大匹配法
  - 与上述算法对应
- 最短路径法
  - 算法P25
- 优点
  - 简单一行
  - 仅需要少量语言资源
- 缺点
  - 歧义消解能力差
  - 切分准确率不高
统计方法·生成式方法
- 建立样本生成模型，再进行间接推理
- HMM
  - 马尔可夫过程：当前状态由前 $t - 1$ 个时刻的状态决定
  - 一阶马尔可夫假设：当前状态只与前一个状态相关
  - 不动性假设：一阶假设独立于时间
  - 表示成状态转移图，每个节点所有出弧概率和为1
  - 序列概率 $P(S_1, \dots, S_T) = \pi_{S_1} \prod_{t \ge 2} p(S_t| S_{t - 1})$
  - 隐马尔可夫模型：双重随机构成，由状态序列产生观察序列
- HMM的三个问题
  - 概率计算问题，给定观察序列，计算当前HMM下的概率
  - 预测问题：给定观察序列的最佳状态序列
  - 学习问题：给定观察序列，估计最大概率的模型参数
- HMM：分词 + 词性标注
  - 分词结果作为观察序列
  - 词性标注作为状态序列
  - N即词性标记符号个数
  - M每个状态课输出不同词汇的个数
- 求解目标
  - 分词结果： $\widehat O = \arg \max_O p(O | \mu)$
  - 词性标注结果： $\widehat Q = \arg \max_Q p(Q | O, \mu)$
- 模型参数学习
  - 监督训练：直接统计
  - 无监督训练：E-M方法
- 优点：在预料规模足够大，覆盖领域足够大时有较高准确率
- 缺点：预料的规模和覆盖领域不好把握，模型实现复杂
统计方法·判别式方法
- 优先样本条件下，建立判别函数
- 分词问题转化为判别分类问题
- 确定每个子在此种位置问题（词首B、词中M、词尾E、独字词S）
- 最大熵模型
  - 熵增原理
  - 最大熵理论：在已知条件下，熵最大的事物最接近真实状态
  - 约束条件：标注的训练集
- 基于最大熵模型的中文分词
  - 为每个字标注BMES
  - 生成最大熵训练实例
  - 参数训练（生成实例——训练工具——参数训练）
  - 测试（四个实例——激活标记——计算概率——取最大概率标记）
- 搜索最优标注路径
- 基于神经网络的中文分词
  - BiLSTM + CRF
- 优点：精度高、新词识别率高
- 缺点：训练速度慢、需要设计模板以及人工标注语料、性能与之相关
字典 + 统计的方法
- 用字典辅助OOV词语识别
主要问题
- 语料规模小
- 覆盖领域少
- 实体和专有名词识别性能低

命名实体识别

命名实体
- 人名、机构名、地点名称
- 时间、日期、百分比、货币
知识图谱中的命名实体：知识图谱是由众多的实体以及实体之间的关系构成的
两个任务
- 实体边界识别
- 实体类别标注
特点
- 时间、日期、货币、百分比有明显规律
- 人名、地名、机构名识别难度大
  - 数据大不可枚举
  - 无明显规律
  - 常用缩写
英文人名识别
- 具有明显特征
- 比较容易
中文人名识别
- 难点
  - 规律不明显
  - 姓氏和名字可单独使用指定
  - 普通字词
  - 缺乏启发标记（与上下文成词）
- 组合
  - 姓
  - 名
  - 前缀
  - 后缀
- 特点
  - 各部分有一定规律
  - 内部组合规律
  - 上下文构成规律
中文地名识别
- 难点
  - 数量大、缺乏明确规范的定义
  - 出现情形复杂
- 特点
  - 绝大部分是两个字
  - 常与方位词连用
中文机构名识别
- 难点
  - 含有大量的人名、企业字号等专有名称
  - 用词广泛
  - 长度不固定
  - 存在不稳定
- 特点
  - 偏正式复合词
  - 定语 + 名词性中心语
音译名识别
- 难点
  - 很难划分出结构
  - 音译规律不尽相同
  - 上下文规律较差
方法
- 有词典识别方法
  - 词典匹配
  - 正/反向最大匹配法
  - 最短路径法
- 统计识别方法
  - 生成式方法HMM
  - 判别式方法CRF
条件随机场
- 给定一组输入随机变量下另一组输出随机变量的条件概率分布模型
- 假设输出随机变量构成马尔可夫随机场
- 用于序列结构标注问题
- 设 $X$ 和 $Y$ 是两组随机变量， $P(Y|X)$ 在给定 $X$ 下 $Y$ 的条件概率分布， $Y$ 构成无向图表示的马尔可夫随机场（只与相连节点相关），则称条件概率 $P(Y|X)$ 为条件随机场
- $p(Y_v | X, Y_w, w \neq v) = p(Y_v | X, y_w, w \sim v)$
- 线性链CRF：两组条件变量均为线性链表示随机序列
HMM vs. ME vs. CRF
- HMM，生成式模型，只用两个矩阵建模（转移矩阵和生成矩阵），无法利用复杂特征
- ME，判别式模型，可以使用任意复杂特征（特征函数），但是只能得到观察序列与某一状态的关系，状态间关系无法利用
- CRF，判别式模型，可以使用任意复杂特征，可以建模序列和多个状态的关系，考虑了状态之间的关系
基于CRF的NER
- 对每个汉字标注对应实体模型的BIO标记
- 特征函数：不同种类的特征（上下文、词性、词表）
- 词表：生成实例——送入工具——参数训练
- 测试：生成实例——激活特征——计算特征概率——取最大概率标记
LSTM + CRF的NER
- 利用神经网络学习文本中特征
- LSTM产生特征——CRF优化目标函数——产生实体类别
汉语分词CWS + NER
- 分词错误可能积累到NER中
GAN based NER
- 使用丰富的分词数据提升NER性能
融入词典的NER
- Lattice LSTM获取词信息

细粒度实体分类

Entity Typing
更细致的分类，用于提升性能
类别特点
- 更多
- 更细
难点
- 类别制定
- 语料标注
- 实体识别方法
方法
- 无监督
- 有监督
无监督方法
- KnowItAll：规则抽取（人工制定，搜索引擎扩展），实体名抽取（互联网抽取）、实体名验证（搜索引擎验证）
有监督方法
- 特征工程
- 神经网络
思路：上下文、知识库

开放领域实体识别

不限制实力类别
不限制目标文本
给定某一类别实体实例，从网页中抽取同一类别其他类别实体
思路：中自此与目标词在网页中有相同或类似的上下文
- 种子词——模板——更多同类实体
主要方法
- Query Log
- 网页结构
- 多数据源融合

一只派大星

发布了16 篇原创文章 · 获赞 0 · 访问量 75

私信关注

UCAS-AI学院-知识图谱专项课-第6讲-课程笔记

UCAS-AI学院-知识图谱专项课-第6讲-课程笔记

实体识别

信息抽取概述

信息抽取的基础：分词和词性标注

命名实体识别

细粒度实体分类

开放领域实体识别

猜你喜欢