2019.3.2Training Classifiers with Natural Lauguage Explations

看了两天才看完，途中自己做了点笔记，先记录下来，当然还会看第二遍，不足的地方或理解不对的地方再进行填补。

一、背景
训练精确的分类器需要大量的标签，但单个的标签智能提供有限的信息。
二、本文提出的观点：
1.一种新的训练分类器框架（模型），该框架中解析器为每一个标签提供自然语言解释。
2.提供解释的标签在训练分类器的时候更快。这里提供解释的标签可以与标签函数相联系。
3.由于标签函数固有的缺陷。简单的基于规则的解析器更有效。

标签函数：将标记的数据转化为大型的标记数据集，用于训练分类器。
什么是“启发式”：运用经验和实际行动寻找问题的答案或提高某种表现。（根据以往的经验规则进行标记、理解）

F1-score:在二分类中统计中，是对测试准确性的一种度量。

二、本文要点
在关系抽取中，本文利用标注时标注者提供的自然语言解释，使用极弱的基于规则的领域无关的解析器将转化为标记规则，并自动的去除了大多数矛盾的规则（即错误的标签函数），将其运用在大量未标注的数据中获取弱标记信息。利用弱监督的方法训练分类器并取得了不错的效果。

创新点：
1.利用了标注函数的给出的基于自然语言的解释，相对于更专业的结构化语言更为廉价。
2.使用了领域无关的弱解析器，却很简单的过滤掉了大多数错误的规则，并且提出部分“细微错误”，还带来了一些泛华能力的提升。

思考：为什么要为每一个标签提供自然语言解释？（这样做的优点是什么）
即使最简单的基于规则的解析器也能满足以下三点:
1.那些在语法上或不符合实际用的标签函数会被自动的删除掉。
2.在逻辑空间上优化的标签函数都比较精确甚至精度更高。
3.使用弱碱度技术可以有效融合一定的噪声。

这样做的意义：
可以跨任务布置语义解析器进行训练，而不需要设定特定任务的解析器。
比如：应用在配偶实例上的解析器可以应用于生物医学应用。

对比其他的方法：使用该方法比将标签转化为特征直接进行分类训练更加有效。

通过实验可以得出：当提供自然语言解释而不是使用单个标签时，可以更快的训练分类器。相应的F1-score得分将会提高两个数量及。

该框架的组成:
(1)语义分析器
（2）过滤器组
（3）标签聚集器

语义分析器：
将自然语言解释转化为一组逻辑形式代表的标签函数。

过滤器组：
尽可能的过滤掉不正确的标签函数，而剩下的函数将应用于未标记的实例，生成一个标签矩阵。

标签聚集器：
标签矩阵被传递给标签聚集器，标签聚集器则将这些相互冲突的、重叠的表签组合成一个标签。融合后的表签（即只具有一个标签）的实例将被应用于训练任意判别模型。

自然语言解释：（Explanation）
用来解释应用为什么要接受这个标签

2019.3.2Training Classifiers with Natural Lauguage Explations

猜你喜欢