OFSF-BC: Online FeatureSelection Framework for BinaryClassification

1论文概述

本文首先针对批量特征提取存在的不足加以介绍，引入一种基于一阶和二阶信息的在线特征提取框架用于实现二值分类。在实验探究过程中，采用基于FOOL-OFS和SOOL-OFS的在线特征提取方法，得到一阶和二阶在线学习。并针对不同类型的数据集，进行了广泛的实验来评估不同算法在数据集上的准确度即时间损耗。

本文主要分为五个部分。

第一部分介绍了特征提取的重要性，以及本文将要处理的数据的特点是连续的样本数据。在线特征提取的目标是有效识别固定数量的相关特征以进行精准预测。本文作者倾向于机器学习领域中在线学习技术的在线方式解决二值分类特征选择问题。并且研究发现这些在线学习中在线特征提取过程中是基于相同的方式，这个现象是本文提出OFS框架的初衷。

第二部分介绍了相关的预备知识和准备。本文工作内容主要是基于特征提取与在线学习相关的领域。首先介绍的是特征提取的三个种类，及其各自的特点与方法。之后提出了几种解决在线特征选择问题的技术。本文将在线学习分为两类，一阶在线学习和二阶在线学习，一阶在线学习算法只使用一种更新的分类功能，这种在线学习算法需要样本的一阶信息，常见的一阶算法是感知器，还有许多一阶算法。二阶算法是利用基于一阶信息的二阶信息来提高准确度，而这些算法都是本文所要用到的。

第三部分介绍的是本文具体提出的用于二值分类的在线特征提取框架。首先介绍了在线特征提取的整体流程；然后提出了一阶和二阶在线特征提取方法。其中具体介绍了一阶二阶在线学习过程所涉及的各算法及具体流程，本报告会在下节具体介绍这些方法。本部分的最后部分介绍的是所构建的用于二值分类的在线特征提取框架及初始化与参数配置。

第四部分介绍的是利用该框架在获取的不同类型的数据集上进行试验，评测该框架性能。本节首先比较了各一阶算法和二阶算法的不同，然后介绍了将要进行的各种数据集类型以及获取途径；之后就是对这些数据集进行试验。最后实验结果均已表格的形式展现出来。评测的性能指标分别是准确度及时间损耗。

第五部分是对试验部分的测试结果进行总结，并根据测试结果总结所使用的各算法的特点，点出表现出众的算法。最后对全文所做工作进行总结以及未来的工作进行展望，指出将来要努力的方向并给出读者阅读建议。

2.论文算法内容

A：OnlineFeature Selection: Problem Statement

本文输入的样本训练序列是，其中是d维向量，，问题设置中，在线学习要求学习一个线性分类器。要尽可能取少量的特征值。假使，是预先设定的值。在每次迭代中，将要执行：

（1）接受输入样本；

（2）基于现有模型预测分类；

（3）更新标签；

（4）计算损失，这个损失量由预测值与实际值的差别计算得到；

（5）最后根据更新规则更新的权值向量。

B: First-Order Online Learning basedOnline Feature Selection

一阶在线学习方法学习出模型的一阶线性权值向量。本文使用的是在线学习方法有：基于感知器在线学习、ALMA、PA、OGD。

每输入一组数据，分类器会预测出一个，当预测值与实际结果不符时会更新的值。这个更新后的向量将通过选择中最大的B的绝对值并将其余设置为零这个向量来截断。具体算法如下所示：

利用相同的算法思想，本文得到四种一阶算法：ROMMAOFS,ALMA-OFS, PA-OFS, and OGD-OFS

C：Second-Order Online Learningbased Online Feature Selection

为了更好地探究特征之间的结构，基于在线特征提取的二阶在线学习算法假定权值向量服从高斯分布，即,均值向量，协方差矩阵。

与FOOL-OFS思想类似，本文测试了SOOL-OFS。使用截断函数来选择的相关特征向量。本文所采用的二阶算法有:SOP,CW,AROW,SCW。

本文得到一个包含多种在线特征选取方法的框架，因为这些算法都有相似的步骤。本文这些OFS算法的不同在于参数的设定、损失函数的构造、迭代规则。选取特征的最后一步，即截断也同样适用于提到的所有OFS算法。

D: OFSF-BC: Online Feature Selection Framework for Binary Classification

本文所提出的框架包含两种特征提取方法：一阶OFS和二阶OFS。一般情况下，各算法不同之处在于损失函数的设计及数值更新函数。下列算法展示了OFSF-BC：我们使用的OFS算法框架。

3论文实验与结果

A. Basic Algorithms

本文比较了各一阶和二阶算法的不同，且所有做出比较的算法都训练出了

用于二值分类的线性分类器，并且所有实验都已经在数据集上不同随机排列序列运行了十次。

B. Experimental Testbed

我们基于从UCI机器学习库和LIBSVM网站上下载的数据集对我们OFS方法进行测试。从数据集中任意选择，以覆盖各种大小的数据集。除了这些数据集，本文还将OFS应用于实文本分类"20Newsgroups" 数据集，"relathe"and "pcmac"。

C. Experiments

（1）实验1： FOOL-OFS算法性能评估

分别对大规模数据集和实数集进行测试。该实验分别对一下八种数据集进行实验，所得结果如下图下表所示。分别测试了算法的准确度和时间消耗。

由以上结果得2知，大多数情况下，对于不同的数据集，各一阶OFS方法表现不尽相同。PA-OFS相比于其余一阶算法表现出众。P-OFS的性能与OGD-OFS性能相近。OGD-OFS在最大数据集”gisette”上消耗时间最多。对于实数集，P-OFS表现依旧出众，在实数集"relathe"和"pcmac"上，PA-OFS准确率最高。在时间损耗方面，多数情况下P-OFS算法运行速度比较快。

（2）实验2：SOOL-OFS算法性能评估

与一阶算法相同的策略测试二阶OFS算法。首先对来自UCI和LIBSVM的数据集测试5个二阶算法。测试的准确率和时间损耗结果如下图下表所示：

由上图表可得出，SCW-OFS和AROW-OFS算法优于其他二阶方法。作为二阶感知器的SOP-OFS在除了用在除了用P-OFS处理gisette之外的所有数据集上错误率最低。在"a8a"数据集上OGD-OFS的准确率与SCW-OFS和AROW-OFS相近。由时间损耗表得知，AROW需要大量时间，然后P-OFS与其余二阶算法相比速度还是比较很快。二阶算法计算量较大，这是由于每种方法中的复杂更新功能引起的。

针对实数集测试的结果，我们发现SCW-OFS和CW-OFS在“pcmac”集上都有着最好的准确率。AROW-OFS的精度与在”20 Newsgroups”集上的SCW-OFS的精度相似。

4总结

本文描述的OFS框架包含两种方法：一阶在线学习和二阶在线学习算法。针对UCI数集和实数集做了相关实验，并将4个一阶算法与P-OFS算法做比较，最后得出结论：P-OFS算法在效率发面优于其余一阶算法。本文然后测试了二阶算法，这一次是在所提出的OFS框架下进行的实验，将4个二阶算法与两个一阶算法进行比较，由测试结果发现P-OFS依然是最快速的算法。

对于未来工作的展望，本文作者倾向于提高框架的效率，以后的目标也将为多目标问题。今后努力的方向也将致力于增强准确率和降低时间损耗。