UCAS-AI学院-知识图谱专项课-第6讲-课程笔记
其他
2020-04-20 20:03:17
阅读次数: 0
UCAS-AI学院-知识图谱专项课-第6讲-课程笔记
实体识别
信息抽取概述
- 知识获取
- 输入:领域知识本体 / 海量数据
- 输出:领域实例化知识(实体集合、时间集合、事件关系/属性、事件关系)
- 主要技术:信息抽取
- 信息抽取来源:网络文本信息结构
- 结构化数据
- 半结构化数据
- 纯文本(主要,非常重要)
- 信息抽取:从自然语言文本中抽取指定欸性的实体、关系、事件等事实信息,并形成机构化数据输出的文本处理技术
- 主要任务
- 实体识别
- 实体消歧
- 关系抽取
- 事件抽取
- 事件关系判别
信息抽取的基础:分词和词性标注
- 中文分词:在中文文本中词与词之间加上标记
- 词性标注PoS:确定当前上下文中每个词是名词、动词、形容词或其他词性的过程
- 分词的重要性
- 分词难点
- 分词的界限模糊
- 歧义切分(交集型歧义)
- 未登录词识别(命名实体、专业术语、新词语)
- PoS难点
- 中文分词方法
- 有词典切分(一般基于规则) vs. 无词典切分
- 基于规则的方法 vs. 基于统计的方法
- 有词典切分的分词方法
- 词典匹配
- 正向最大匹配法
- 反向最大匹配法
- 最短路径法
- 优点
- 缺点
- 统计方法·生成式方法
- 建立样本生成模型,再进行间接推理
- HMM
- 马尔可夫过程:当前状态由前
t−1个时刻的状态决定
- 一阶马尔可夫假设:当前状态只与前一个状态相关
- 不动性假设:一阶假设独立于时间
- 表示成状态转移图,每个节点所有出弧概率和为1
- 序列概率
P(S1,…,ST)=πS1∏t≥2p(St∣St−1)
- 隐马尔可夫模型:双重随机构成,由状态序列产生观察序列
- HMM的三个问题
- 概率计算问题,给定观察序列,计算当前HMM下的概率
- 预测问题:给定观察序列的最佳状态序列
- 学习问题:给定观察序列,估计最大概率的模型参数
- HMM:分词 + 词性标注
- 分词结果作为观察序列
- 词性标注作为状态序列
- N即词性标记符号个数
- M每个状态课输出不同词汇的个数
- 求解目标
- 分词结果:
O
=argmaxOp(O∣μ)
- 词性标注结果:
Q
=argmaxQp(Q∣O,μ)
- 模型参数学习
- 优点:在预料规模足够大,覆盖领域足够大时有较高准确率
- 缺点:预料的规模和覆盖领域不好把握,模型实现复杂
- 统计方法·判别式方法
- 优先样本条件下,建立判别函数
- 分词问题转化为判别分类问题
- 确定每个子在此种位置问题(词首B、词中M、词尾E、独字词S)
- 最大熵模型
- 熵增原理
- 最大熵理论:在已知条件下,熵最大的事物最接近真实状态
- 约束条件:标注的训练集
- 基于最大熵模型的中文分词
- 为每个字标注BMES
- 生成最大熵训练实例
- 参数训练(生成实例——训练工具——参数训练)
- 测试(四个实例——激活标记——计算概率——取最大概率标记)
- 搜索最优标注路径
- 基于神经网络的中文分词
- 优点:精度高、新词识别率高
- 缺点:训练速度慢、需要设计模板以及人工标注语料、性能与之相关
- 字典 + 统计的方法
- 主要问题
命名实体识别
- 命名实体
- 知识图谱中的命名实体:知识图谱是由众多的实体以及实体之间的关系构成的
- 两个任务
- 特点
- 时间、日期、货币、百分比有明显规律
- 人名、地名、机构名识别难度大
- 英文人名识别
- 中文人名识别
- 难点
- 规律不明显
- 姓氏和名字可单独使用指定
- 普通字词
- 缺乏启发标记(与上下文成词)
- 组合
- 特点
- 中文地名识别
- 中文机构名识别
- 难点
- 含有大量的人名、企业字号等专有名称
- 用词广泛
- 长度不固定
- 存在不稳定
- 特点
- 音译名识别
- 方法
- 条件随机场
- 给定一组输入随机变量下另一组输出随机变量的条件概率分布模型
- 假设输出随机变量构成马尔可夫随机场
- 用于序列结构标注问题
- 设
X和
Y是两组随机变量,
P(Y∣X)在给定
X下
Y的条件概率分布,
Y构成无向图表示的马尔可夫随机场(只与相连节点相关),则称条件概率
P(Y∣X)为条件随机场
-
p(Yv∣X,Yw,w=v)=p(Yv∣X,yw,w∼v)
- 线性链CRF:两组条件变量均为线性链表示随机序列
- HMM vs. ME vs. CRF
- HMM,生成式模型,只用两个矩阵建模(转移矩阵和生成矩阵),无法利用复杂特征
- ME,判别式模型,可以使用任意复杂特征(特征函数),但是只能得到观察序列与某一状态的关系,状态间关系无法利用
- CRF,判别式模型,可以使用任意复杂特征,可以建模序列和多个状态的关系,考虑了状态之间的关系
- 基于CRF的NER
- 对每个汉字标注对应实体模型的BIO标记
- 特征函数:不同种类的特征(上下文、词性、词表)
- 词表:生成实例——送入工具——参数训练
- 测试:生成实例——激活特征——计算特征概率——取最大概率标记
- LSTM + CRF的NER
- 利用神经网络学习文本中特征
- LSTM产生特征——CRF优化目标函数——产生实体类别
- 汉语分词CWS + NER
- GAN based NER
- 融入词典的NER
细粒度实体分类
- Entity Typing
- 更细致的分类,用于提升性能
- 类别特点
- 难点
- 方法
- 无监督方法
- KnowItAll:规则抽取(人工制定,搜索引擎扩展),实体名抽取(互联网抽取)、实体名验证(搜索引擎验证)
- 有监督方法
- 思路:上下文、知识库
开放领域实体识别
- 不限制实力类别
- 不限制目标文本
- 给定某一类别实体实例,从网页中抽取同一类别其他类别实体
- 思路:中自此与目标词在网页中有相同或类似的上下文
- 主要方法
发布了16 篇原创文章 ·
获赞 0 ·
访问量 75
转载自blog.csdn.net/cary_leo/article/details/105620237