Error-Correcting Factorization 论文笔记

摘要

纠错输出代码（ECOC）是多分类中的成功技术，这是模式识别和机器学习中的核心问题。与其他方法相比，ECOC的一个主要优点是多类问题被分解为一组独立解决的二元问题。然而，文献定义了ECOC的一般纠错能力，而没有分析它如何在类之间分配，阻碍了对成对错误校正的更深入分析。为了解决这些局限性，本文提出了一种纠错因子分解（ECF）方法。我们的贡献有三个：（I）我们提出了一种新的纠错能力表示，称为设计矩阵，它使我们能够在对一对对的类别分配校正的基础上构建ECOC。（II）我们使用设计矩阵的秩属性推导出ECOC的最佳代码长度。（III）ECF被公式化为离散优化问题，并且使用有效的约束块坐标下降方法找到了松弛的解决方案。（IV）通过设计矩阵引入的灵活性，我们提出了在容易混淆的类上分配错误校正。几个数据库中的实验结果表明，在将错误校正分配给可混淆类时，ECF优于最先进的方法。

本论文的方法

在本文中，我们提出了误差校正因子分解（ECF）方法，用于将类之间所需的“纠错特性”的设计矩阵分解为离散ECOC矩阵。所提出的ECF方法是ECOC编码步骤的一般框架，因为设计矩阵是用于误差校正分析的灵活工具。在这个意义上，设计ECOC矩阵的问题被简化为定义设计矩阵，其中可以使用更高级别的推理。例如，遵循最近最先进的工作，人们可以建立一个设计矩阵，遵循“硬类留下”的思想，提升易分类的界限，忽视不易分离的类。构建设计矩阵的另一种方法是“无类留下”标准，我们可能会增加那些容易混淆的类，希望能够恢复更多的错误。设计矩阵还可以直接编码领域专家对该问题的见解，为ECOC编码矩阵的设计提供了很大的灵活性。图2显示了不同的编码方案和由二元分类器（带有RBF内核的SVM）学习的14类玩具问题的实际边界（有关数据集的更多详细信息，请参见后续章节）。我们可以看到图2a中使用了ECF的二分类问题如何增强了易于混淆的类的边界，而其他使用相同或更多数量的分类器的方法如图2b中的密集随机或图2c中经典的一个对所有的设计在此任务中失败。

纠错输出码

ECOC是一个基于通信理论纠错原理的多分类框架，它由两个不同的步骤组成：编码和解码。在编码步骤中，构造ECOC编码矩阵，其中k表示问题中的类的数量，l表示要学习的双分区的数量（也称为二分法）。在编码矩阵中，行（也称为码字）被明确定义，因为它们是多类问题中每个类别的标识符。另一方面，X的列表示要由基础分类器（也称为二分法）学习的双分区。因此，对于某一列，二分法学习了值为-1的类和值为1的类之间的边界。然而，[2]引入了第三个值，定义了三值编码矩阵。在这种情况下，对于任何给定的二分法，类别可以根据它们所属的元类值被赋值为1或-1，或者如果它们被二分器件忽略则为0。这个新值允许将众所周知的分解技术包含在ECOC框架中，例如One vs. One。

在解码步骤中，数据样本s被分类在c1……ck可能的类别。为了执行分类任务，每个二分器预测s的二分类值是否属于由对应的二分法定义的双分区之一。一旦获得预测集合y，就使用距离函数d将其与X行进行比较，距离函数d称为解码函数。通常的解码技术基于众所周知的距离测量，例如l1或欧几里德距离。证明这些措施对X 有效。然而，直到[22]的工作，解码函数才考虑解码步骤中0值的含义。通常，s的最终预测由ci类给出，其中argmin d。

ECOC的良好实践

一些研究已经研究了一个好的ECOC编码矩阵的特征[17]，[21]，[24]，[29]，[30]，它们总结为以下三个属性：

1）校正能力：令H表示X中所有行对之间的汉明距离的对称矩阵，校正能力表示为（minH-1）/2，仅考虑H的非对角线值。从这个意义上说，即使一个二元分类器预测错，如果minH=3，ECOC将能够恢复正确的多类预测。
2）不相关的二进制子问题：引起的二进制问题应尽可能不相关，以便X恢复二进制分类器错误。
3）使用强大的二分类器：由于最终的类预测由比特预测器的聚合组成，因此还需要准确的二元分类器来获得准确的多类预测。

从全局到配对纠正能力

在文献中，校正能力一直是X的问题依赖设计的核心目标。在这个意义上，不同的作者一直同意将ECOC编码矩阵的校正能力定义为全局值[2]，[20]，[21]，[24]，[29]，[31]。因此，为了让X尽可能多地恢复许多二元分类器错误，我们期望minH很大。然而，由于H表示X行之间的汉明距离，因此可以选择性地以成对方式表达校正能力[32]，从而允许更深入地理解如何在码字之间分配校正。图3示出了全局和成对校正能力计算的示例。回想一下，两个向量之间的运算符表示它的串联。因此，成对校正能力定义如下：

码字xi和xj的成对校正能力表示为：（见论文），其中我们仅考虑H的非对角线值。这意味着类ci的样本甚至在二元分类器预测错时可以和cj类正确区分。

尽管在图3中X的全局校正能力是0，但是存在具有更高校正的码字对，例如x2和x8。在这种情况下，文献中定义的全局校正能力忽略了可能被利用的ECOC编码特征。这种表达ECOC矩阵的校正能力的新方法使得能够更好地理解ECOC编码矩阵如何分配其校正能力，并且提供了如何设计编码矩阵的见解。从这个意义上说，要求根据那些更容易出错的类来分配ECOC矩阵的校正能力是直截了当的，以便它们具有更好的恢复行为（即，遵循“没有留下任何类别” 的标准）。然而，最近的工作[20]，[24]，[26]专注于设计矩阵X，其中二元问题很容易分离。该假设导致矩阵X，其中不易分离的类在它们各自的码字上显示小的汉明距离（即，遵循“硬类留下”方案）。

除了通过设计矩阵的定义进行ECOC编码的一般方法的提议之外，我们还探讨了将方法的学习努力集中在具有复杂边界的那些类中的效果（即，那些显示小的帧间距离的类别）。重要的是要考虑到尽管从训练数据中估计设计矩阵是很自然的，但它并不是ECF的限制。在这个意义上，设计矩阵还可以编码专家的信息或由用户直接设置的任何其他距离测量。形式上，令X为编码矩阵，令H为X行之间的成对l1距离的对称矩阵，并且令D 为设计矩阵（例如，类码字之间的成对距离测量）。很自然地看到距离的序数属性应保持在H和D中。因此，如果要求码字xk和xl（dkl）之间的距离大于码字xi和xj（dij）之间的距离，则此顺序应该保持在H.然后我们想找到一个X的配置，使得hij <hkl，dij <dkl。

H中的l1距离可以等效地计算为码字的点积的函数。因此，我们可以等效地要求产品XX匹配D [33]，而不是直接要求H匹配D. 这意味着我们可以将找到X的问题转化为矩阵分解问题，其中我们找到一个X，使得内积XX在给定范数下最接近D。

纠错因子分解

本节介绍ECF算法的目标函数和优化策略。

我们的目标是找到ECOC编码矩阵，该矩阵对由设计矩阵D表示的属性进行编码。在这个意义上，ECF寻求将设计矩阵D分解为离散ECOC矩阵X.该分解被表示为二次方程。如论文公式所示，在几个约束下，用最小的Frobenius距离重建D形式XX。

解决该优化问题的X产生在Frobenius范数下最接近D的离散矢量的内积。

为了使X成为ECOC框架下的有效矩阵，我们在Eqs（2），（3），（4）和（5）中定义约束。式（2）确保每个二分类问题类都属于两个可能的元类之一。因此，X中的每个元素将被赋值为1或-1。此外，我们通过约束（3）控制任何码字对之间的最大相关性。这种约束背后的动机是双重的。首先，我们希望避免为不同类定义相同码字的X的配置，其次，我们希望控制成对校正功能。在这个意义上，（3）中的约束确保X的所有成对行相关性小于或等于用户定义的矩阵P，其对码字对之间的最大相关性进行编码。 P是具有（公式见论文）的对称矩阵（重申1表示使用时具有适当大小的所有1的矩阵或向量）。因此，通过在P中设置非对角线值，我们可以控制最小的类间校正能力。因此，如果我们想要行xi和xj的校正能力为（c-1）/2，我们设置pi为（公式见论文），除了对角线元素。

最后，Eqs中的约束（4）和（5）确保诱导的二元问题不相同。在文献[21]，[29]，[31]中已经彻底研究了类似的约束，这些约束依赖于二元问题的多样性度量以获得编码矩阵X. Eqs（4）和（5）可以被认为是软约束，因为它的违反并不意味着在行距方面违反了ECOC属性[21]。这很容易显示，因为编码矩阵引起一些等效的二元问题，但确保（公式见论文）将定义一个矩阵，其行被明确定义。在这个意义上，通过消除重复的列，可以容易地将编码矩阵X投影到由约束（4）和（5）定义的集合上。因此，（4）和（5）中的约束确保将在我们的编码矩阵X中定义不相同的二分类子问题。（2）中的离散限制在变量上将优化问题提升到NP-Hard类。为了克服这个问题，在[26]，[34]，[35]之后，我们放松了（2）中的离散约束，在（7）中用X代替它。

优化

在本节中，我们将详细介绍优化X的过程。方程式（1）在（2）放宽了方程式中的布尔约束是出现的最小化问题是非凸的，因此，X不保证是全局最小值。从这个意义上讲，尽管梯度下降技术已成功应用于文献中以获得局部最小值[36]，[37]，[38]但这些技术并不具备应用于矩阵分解问题的其他优化方法中存在的效率和可扩展性属性，例如坐标下降[39]，[40]。坐标下降技术已广泛应用于非负矩阵分解，在效率方面获得了令人满意的结果[41]，[42]。此外，已经证明，如果每个坐标子问题都可以精确求解，坐标下降会收敛到一个静止点[43]，[44]。使用此结果，我们将方程式（1）中的问题解耦成一组线性最小二乘问题（每个坐标一个）。因此，如果Eq（1）中的问题将沿着X的第i个坐标最小化，除了xi之外我们修复X的所有行，并且我们将Eqs（1）和（3）中的X替换为（公式见论文）. （1）和（3），其中X’i表示在去除第i行之后的矩阵X. 另外，我们用（公式见论文）替换D，其中D’i’i表示在去除第i行和列之后的矩阵D. 等价地，我们用（公式见论文）替换P，获得以下块分解（公式见论文）

分析公式（6）中的块分解，我们可以看到涉及自由变量的唯一术语是（公式）。此外，术语（公式）在Eq（6）可以丢弃而不失一般性，因为它不影响xi与任何其他码字的相关性。因此，由于D和XX根据定义是对称的，因此最小化（6）中的xi是所示线性最小二乘问题的解决方案。

其中约束（10）是离散约束（2）的松弛。另外，约束（11）确保xi与X的其余行的相关性低于特定值pi。算法1显示了完整的优化过程。

算法1见论文。

为了解决算法1中的最小化问题，我们使用[45]中描述的有效集方法，通过首先求解线性规划问题找到初始可行解。一旦ECF收敛到X并具有客观值fobj（X），我们通过采样分散间隔[-1,1]的1000个点来来选取使（论文公式）最小化的点。最后，我们会丢弃任何出现的重复的列。

与奇异值分解，最近相关矩阵和离散基问题的联系

类似于公式（1）中的ECF问题的目标函数在其他情境中被发现，例如，在奇异值分解问题（SVD）中。 SVD使用与受到约束XX=I的ECF相同的目标函数。然而，SVD的解决方案产生正交基（即，不相关矢量的基础），与方程式（1）中定义的目标相反，确保xi之间的不同相关性。此外，我们还可以找到最近相关矩阵（NMC）问题[46]，[47]，[48]的共同点。然而，NMC解决方案不会产生离散因子X，而是直接寻找Gramian XX，其中X不是离散的。

讨论

在本节中，我们将讨论如何确保设计矩阵D是有效的，以及如何自动估计给定D的每个问题的码字长度。此外，我们分析ECF的收敛与坐标的顺序更新的关系。最后，我们证明在D 的某些条件下ECF收敛于具有几乎可忽略的目标值的解。

确保可表示的设计矩阵

ECF的另一种解释是它寻找一个离散矩阵X，其Gramian在Frobenius范数下最接近D. 然而，由于D可以由用户直接设置，我们需要保证D是在R空间中可实现的相关矩阵，即D必须是对称的并且是半正定的。特别地，我们希望找到在Frobenius范数下最接近D的相关矩阵D~ 。这个问题已经在一些工作中得到了处理[46]，[47]，[50]，[51]，导致各种算法经常使用交替投影方法。然而，对于这种特殊情况，除了在半正定（PSD）域中并且对称之外，我们还要求D在[-l,l]范围内缩放。在这个意义上，为了找到~D，我们遵循交替投影算法，类似于[46]，这在算法2中示出。我们首先通过计算其特征向量并用（论文公式）恢复D到PSD域中。其中，λ+是D的非负特征值。然后，我们将D规范为[-l,l]。

使用表示保证定义码字长度

依赖于问题的ECOC码字长度l的定义，即为给定的多类任务选择二进制分区的数量是文献中忽略的问题。例如，预定义的编码设计，例如One vs. All或One vs. One，具有固定的代码长度。另一方面，建议使用密集或稀疏随机编码（经常用于实验比较[15]，[17]，[24]，[26]）的编码设计[2]，其代码长度为d10 分别为（论文公式）。

这些值是任意的，没有道理。此外，要构建密集或稀疏随机ECOC矩阵，必须生成一组1,000个矩阵并选择一个最大化min(H)。考虑密集随机编码设计，长度为l，ECOC矩阵在最佳情况下将具有4个单位的校正能力，与多类数据的分布无关。此外，最大化min（H）效果导致校正能力在类别上的均等分布。其他方法，如Spectral ECOC [24]通过查看验证集上的最佳性能来搜索代码长度。尽管如此，最近的研究表明，如果仔细选择ECOC编码设计[52]并且分类器很强，代码长度可以减少到（公式），并且性能损失非常小。在本文中，我们不是修复代码长度或在验证子集上优化它，而是根据矩阵秩属性推导出与问题相关的最小码字长度。考虑将D分解为XX的等级，有三种不同的可能性：

1）如果rank（XX）=rank（D），我们得到的秩分解算法应该能够以最小的误差对D进行分解。
2）在rankXX<rankD的情况下，我们得到一个低秩分解方法，不能保证用0表示D的错误，而是用更高的信息重构D的分量。

3）如果rankXX>Þ>rankD，系统超定，并且存在许多可能的解决方案。

一般来说，我们想以最小的误差重建D，并且因为（公式）和类的数量k是固定的，我们留下两种可能的情况：

1）X是大矩阵（即，（超 - ）线性ECOC编码）。在这种情况下，如果D是满秩，则ECF是秩分解问题。否则，ECF将成为一个具有多种可能解决方案的超定系统。
2）X是薄矩阵（即，k> l的子线性ECOC编码）。在这种情况下，我们使用l来控制X的等级。因此，通过设置rank(X)=l=rank(D)，ECF将能够以最小的误差对D进行因式分解。注意，ECF误差（即，Frobenious Norm）与分类错误分离。因此，最小化ECF误差并不直接意味着最小化分类误差。相反，ECF Frobenious规范表示纠正能力分配中的错误。

图4显示了应用于Traffic和ARFace数据集的ECF方法的可视结果。注意，对于Traffic（36类）和ARFaces（50类）数据集，ECF到满秩分解所需的码字长度分别为l = 6和l = 8，如图4e和图4f所示。

坐标更新顺序

Coordinate Descent已应用于广泛的问题中，取得了令人满意的结果。然而，在每次迭代中选择坐标以最小化的问题仍然有效[44]，[53]，[54]，[55]。特别是，[56]导出的收敛速度在均匀随机而不是循环方式选择坐标时更快。因此，当问题具有以下某些特征时，随机选择坐标是一个合适的选择：

并非所有数据都可用。
随机策略能够避免最坏情况的坐标顺序，因此可能是优选的。
最近的努力表明，随机化可以提高收敛率[56]。

但是，ECF的结构不同，需要进行不同的分析。我们特别注意以下几点。（i）在ECF的每次坐标更新时，都可以获得有关其余坐标的信息。（ii）由于我们的坐标更新是唯一解决的，因此坐标更新的重复不会改变目标函数。（iii）当更新所有其他坐标时，更新坐标时目标值的下降最大。这些原因导致我们为ECF选择循环更新方案。此外，在图5中，我们展示了几个例子，其中坐标的循环次序比两个问题的随机顺序收敛得更快：Vowel和ARFace（有关数据集的更多信息，请参阅第5节）。此行为对所有数据集都很常见。特别要注意坐标的循环次序如何减小目标函数的标准偏差，这由图5中较窄的蓝色阴影区域表示。

实验

Error-Correcting Factorization 论文笔记

猜你喜欢