2019.3.2Training Classifiers with Natural Lauguage Explations

看了两天才看完,途中自己做了点笔记,先记录下来,当然还会看第二遍,不足的地方或理解不对的地方再进行填补。

一、背景
训练精确的分类器需要大量的标签,但单个的标签智能提供有限的信息。
二、本文提出的观点:
1.一种新的训练分类器框架(模型),该框架中解析器为每一个标签提供自然语言解释。
2.提供解释的标签在训练分类器的时候更快。这里提供解释的标签可以与标签函数相联系。
3.由于标签函数固有的缺陷。简单的基于规则的解析器更有效。

标签函数:将标记的数据转化为大型的标记数据集,用于训练分类器。
什么是“启发式”:运用经验和实际行动寻找问题的答案或提高某种表现。(根据以往的经验规则进行标记、理解)

F1-score:在二分类中统计中,是对测试准确性的一种度量。

二、本文要点
在关系抽取中,本文利用标注时标注者提供的自然语言解释,使用极弱的基于规则的领域无关的解析器将转化为标记规则,并自动的去除了大多数矛盾的规则(即错误的标签函数),将其运用在大量未标注的数据中获取弱标记信息。利用弱监督的方法训练分类器并取得了不错的效果。

创新点:
1.利用了标注函数的给出的基于自然语言的解释,相对于更专业的结构化语言更为廉价。
2.使用了领域无关的弱解析器,却很简单的过滤掉了大多数错误的规则,并且提出部分“细微错误”,还带来了一些泛华能力的提升。

思考:为什么要为每一个标签提供自然语言解释?(这样做的优点是什么)
即使最简单的基于规则的解析器也能满足以下三点:
1.那些在语法上或不符合实际用的标签函数会被自动的删除掉。
2.在逻辑空间上优化的标签函数都比较精确甚至精度更高。
3.使用弱碱度技术可以有效融合一定的噪声。

这样做的意义:
可以跨任务布置语义解析器进行训练,而不需要设定特定任务的解析器。
比如:应用在配偶实例上的解析器可以应用于生物医学应用。

对比其他的方法:使用该方法比将标签转化为特征直接进行分类训练更加有效。

通过实验可以得出:当提供自然语言解释而不是使用单个标签时,可以更快的训练分类器。相应的F1-score得分将会提高两个数量及。

该框架的组成:
(1)语义分析器
(2)过滤器组
(3)标签聚集器

语义分析器:
将自然语言解释转化为一组逻辑形式代表的标签函数。

过滤器组:
尽可能的过滤掉不正确的标签函数,而剩下的函数将应用于未标记的实例,生成一个标签矩阵。

标签聚集器:
标签矩阵被传递给标签聚集器,标签聚集器则将这些相互冲突的、重叠的表签组合成一个标签。融合后的表签(即只具有一个标签)的实例将被应用于训练任意判别模型。

自然语言解释:(Explanation)
用来解释应用为什么要接受这个标签

猜你喜欢

转载自blog.csdn.net/qq_40258282/article/details/88082692
今日推荐