华院论文 | 一类非 i.i.d. 情形下的鲁棒学习算法

【摘要】本文在不假设i.i.d.的条件下考虑了一类非线性回归问题，我们提出了对应的极小极大算法并且给出了数值求解方法。本算法可被广泛应用于回归和机器学习问题中，并且在鲁棒性方面比最小二乘和其他的机器学习算法有更好的效果。1、介绍在经典的机器学习框架下，通常会假设数据满足i.i.d.(independent and identically distributed，独立同分布)条件。统计学中，线性回归用于对因变量和自变量之间的线性关系进行建模。因变量通常用 y 表示, 自变量用 x 表示。

y = wTx + b + ε. （1）

其中，参数w，b 可以通过最小二乘法估计得到。Theorem 1.1.假设{(xi , yi)} mi=1是从线性模型(1)中取的样本，对应的误差项ε1，ε2 ,… ,εm是i.i.d.的，并且服从均值为0方差为σ2 的正态分布，则最小二乘法的结果是(w1 , w2 ,…, wd , b)T = A+c.这里，

A+是A 的广义逆矩阵（关于广义逆的定义, 参见[1].）。

在上述的定理中，误差项ε1 , ε2 ,…, εm 假设是i.i.d.的，因此，y1 , y2 ,…, ym 是独立的正态变量。当i.i.d. 条件不满足时，最小二乘法可能会失效。为此，我们来看一个例子。Example 1.1. 假设N(µ,σ2) 是正态分布，均值为µ ,方差为σ2。δc 是Dirac分布，即

假设样本服从如下分布

yi =1.75∗xi +1.25+εi , i =1,2, … ,1517,其中，ε1,…, ε500 ∼ δ0.0325, ε501,…, ε1000 ∼ δ0.5525,ε1001,…, ε1500 ∼ δ−0.27, ε1501,…, ε1517 ∼ N(0, 0.2).

整个样本数据取到

传统的最小二乘的结果为y= 0.4711*x+1.4258,如图所示，

图1：最小二乘结果

从图1可以看到，大多数样本点都偏离了回归直线。主要原因是因为(x1, y1),(x2, y2 ),…,(x500 , y500 ) 是相同的样本，并不服从i.i.d.条件。

为了克服这一困难，林路[10]利用了彭实戈[14]提出的非线性期望理论框架来研究线性回归。他们将训练样本分成若干组，在每一组中服从i.i.d.条件。对于每一组利用均方误差，然后再利用所有均方误差的最大值作为最终的误差。他们将非线性期望下的线性回归问题化成如下的极小极大问题。

他们提出了一种遗传算法来解决此类问题。然而，这种遗传算法并不总是有效。

受到彭实戈[14]和林路[10]工作的启发, 我们在不假设i.i.d.的条件下考虑了一类非线性回归问题。我们提出了对应的极小极大算法并且给出了数值求解方法。本算法可被广泛应用于回归和机器学习问题中，并且比传统的最小二乘和其他的机器学习算法有更好的效果。

2、不假设独立同分布情形下的非线性回归

非线性回归是一种利用非线性函数来对数据进行建模回归的方法参见[15]。

假设数据集是

S = {(x1, y1),(x2, y2), … ,(xm, ym)},

这里xi ∈X, yi ∈Y. X称为输入空间，Y称为是目标空间。非线性回归的目的是从假设空间{ gλ:X → Y | λ∈Λ}中找到一个函数gθ:X → Y使得gθ( xi ) 和yi 尽量接近。接近程度通常用一个损失函数φ去度量，其中φ (gθ ( x1), y1, … , gθ (xm), ym )达到最小值当且仅当gθ( xi ) − yi = 0, 1 ≤ i ≤ m.

则非线性回归问题转化为一个最小化φ 的问题。以下是两种常用的损失函数：平均损失和最大损失。

因为平均损失可以很方便地与一些在线算法所结合，所以在机器学习中用得比较普遍。平均损失的主要学习思想是训练一个函数，使得它在每一个样本点上表现得都差不多好。然而，当i.i.d.条件不满足时，利用平均损失的方法会遇到问题。

为了解决这一问题，我们利用了 max-mean 作为损失函数。首先，我们将训练集分成若干组，保证每组组内满足i.i.d.条件。对于每一组我们利用了平均损失，然后对每一组的损失函数取最大值作为最终的损失函数。我们将最后的问题转化为一个 mini-max 的问题。

这里，nj 是第 j 组的样本数。问题(3)是问题(2)的推广形式。接下来，我们会给出一个解决问题(3)的数值算法。Remark 2.1.彭实戈等[4]在不满足i.i.d.的情形下提出了一个 max-mean 的方法来给出参数估计。他们证明了如果 Z1, Z2, …, Zk 是取自极大分布的样本，并且满足非线性意义下的独立性，则的最优无偏估计是max{ Z1,Z2, … ,Zk }.再根据大数定律(参见[4]的Theorem19) 可以得到μ 的 max-mean 估计。我们在利用 max-mean作为损失函数处理非线性回归时借鉴了这一思想。3、算法问题(3)是一个 mini-max 问题。Mini-max 在数学的很多领域都有出现，例如博弈论和考虑最坏情形的优化问题。一般的 mini-max 问题具有如下形式这里，ℎ 是ℜn × V 中的连续函数，并且关于u 可微。Klessig[8]和 Panin[13]分别于1973年和1981年在理论上考虑了问题(4)。1987年，Kiwiel[7]给出了解决问题(4)的一个具体算法。Kiwiel的算法处理了V 是欧式空间中紧集的一般情形，其收敛速度随着参数量增大时会变得很慢。在我们的情形中，V={1, 2,…,N}是一个有限集合，我们给出了一个简化的算法，该算法收敛速度更快。记假设 fj 可微。下面我们给出以下离散 mini-max 问题的迭代算法。

由于Φ 通常是不光滑，所以主要的困难在于在每个迭代点uk (k=0,1,…)处寻找下降方向。为此，我们对fj 在uk 处进行线性化，从而得到了Φ 的凸逼近。

下一步是寻找 uk+1 来最小化。一般来说，关于 u 不是严格凸的，因此可能不存在全局最小值点。为此，我们加入了一个正则化项。

置 d=u−uk ,上式可转化为这与如下式子等价

问题(6)-(7)是一个半正定的二次规划问题(quadratic programming)。当n比较大时，经典的解决QP问题的算法（例如有效集法）比较耗时。所以我们考虑了对偶问题。

Theorem 3.1.记G =∇f ∈ ℜN×n, f = (f1 ,…,fN )T. 如果λ 是如下QP 问题的解。

则 d=−GTλ 是问题(6)-(7)的解。

Proof.参见附录。

Remark 3.1.问题(8)-(9)可以被很多标准方法解决，例如有效集方法(参见[5])。对偶问题(8)-(9)的维数是N(组数)，它与参数个数n没有关系。因此，该算法快且稳定，尤其是在深度神经网络中。

置 dk=−GTλ. 下面的定理说明dk 是一个下降方向。Theorem 3.2. 如果 dk ≠ 0 ，则存在 t0 > 0 使得Φ (uk+tdk ) < Φ ( uk ), ∀t ∈ (0, t0 ).Proof.参见附录。对于函数F ，F 在x 处关于方向d 的方向导数定义为

F 在 x 处达到最小值的必要条件 (参见[3]) 是

x 称为 F 的平稳点。

Theorem 3.2 表明当dk ≠ 0 时，我们总是可以找到下降方向。下面的定理说明了当dk= 0时, uk 是一个平稳点。Theorem 3.3.如果 dk= 0 , 则 uk 是 Φ 的平稳点，即

Proof.参见附录。Remark 3.2.当每一个fj 是凸函数时，Φ 也是凸函数。从而 Φ 的平稳点就是全局最小值点。当 dk 是下降方向时，我们可以利用线性搜索的方法来得到合适的步长，从而完成迭代。

现在，我们来对上述的讨论做一些总结，我们给出下面 mini-max 问题的具体算法。

算法:

步骤 1.初始化选取u0 ∈ Rn。置k =0,ξ =10−8,δ =10−7 以及σ =0.5 . 步骤 2. 寻找下降方向假设我们已经选取了uk 。计算 Jacobian 矩阵G = ∇f(uk) ∈ RN×n,其中f (u) = (f1(u) , … , fN (u) )T.在容忍间隔为δ 的情形下求解如下的二次规划问题（参见[5]）。

取 dk = −GTλ。如果‖ dk ‖ < ξ ，则停止。否则，进入步骤 3。步骤 3. 线性搜索寻找最小的自然数 j 使得Φ ( uk + σ j dk ) < Φ ( uk ).取αk = σ j，置uk+1=uk + αkdk ,k=k+1. 进入步骤 2。4、实验4.1 线性回归情形上述算法可以很好地解决 Example 1.1.fj (w, b) = (wxj + b − yj ) 2 , j =1, 2 , … ,1517.对应的优化问题是利用第 3 节中的算法可以得到最终的结果为

y = 1.7589∗ x +1.2591.

图2：两种方法的结果

图2总结了结果。容易看到 mini-max 方法(黑线)比传统的最小二乘法(粉线)效果好。

下面，我们利用均方误差MSE和绝对误差MAE来衡量w 和b 的估计。

表 1：两种方法的比较

我们从上表可知，在均方误差MSE和绝对误差MAE上，mini-max 方法都要比传统方法表现好。 4.2 机器学习情形

我们采用深度学习方法并且利用数据集 CelebFaces Attributes Dataset (CelebA) 来进一步测试 mini-max 算法。数据集 CelebA 包含 202599 人脸图片，其中 13193(6.5%) 戴有眼镜。我们的目标是检测是否戴眼镜，我们利用了单个隐藏层的神经网络来比较两种方法。

我们随机抽取 20000 张图片作为训练集，其中 5% 的图片戴眼镜。对于传统方法，20000 张图片直接用于训练对于 mini-max 方法，我们将 20000 张图片分成 20 组。1 组包含眼镜，另外的 19 组不含眼镜图片。这样，每一组可认为是独立同分布的，但是整体并不是独立同分布的。

传统方法利用了如下的损失函数

Mini-max 方法利用了如下的损失函数

这里，σ是一个激活函数，例如我们可以取sigmoid函数

图3：两种方法的损失曲线

我们对每种方法进行了 100 次迭代。由图3可知 mini-max 方法比传统方法收敛更快。图4表明 mini-max 方法在准确率上比传统方法表现要好。

图4：两种方法的准确率曲线

Mini-max 方法的平均准确率为 74.52%，传统方法的平均准确率为 41.78%。因此，在深度学习场景中 (目前只采用了单隐藏层的神经网络)，mini-max 方法加速了不平衡样本集的训练速度同时提升了准确率。我们预计在多隐藏层的神经网络中应该有类似的效果。

5、结论

本文在不假设i.i.d.的条件下考虑了一类非线性回归问题。我们提出了对应的极小极大算法并且给出了数值求解方法。本算法可被广泛应用于回归和机器学习问题中，并且比传统的最小二乘和其他的机器学习算法有更好的效果。

感谢彭实戈院士对本文提供的建议和帮助。同时，我们也感谢沈旭立提供了机器学习情形下的例子。

* 本文工作得到华院计算认知智能引擎项目的资助

附录

参考文献

[1] Ben-Israel, Adi, Greville, Thomas N.E. (2003). Generalized inverses:Theory and applications (2nd ed.). New York, NY: Springer.

[2] Boyd. Stephen, Vandenberghe. Lieven (2004). Convex Optimization,Ca-mbridge University Press.

[3] Demyanov. V. F., Malozemov. V. N.(1977), Introduction to Minimax,Wiley, New York.

[4] Hanqing Jin, Shige Peng (2016). Optimal Unbiased Estimation for Maximal Distribution. https://arxiv.org/abs/1611.07994.

[5] Jorge Nocedal, Stephen J. Wright (2006). Numerical Optimization, Second Edition.

[6] Kendall, M. G., Stuart, A. (1968). The Advanced Theory of Statistics, Volume 3: Design and Analysis, and Time-Series (2nd ed.). London: Griffin.

[7] Kiwiel, K.C. (1987). A Direct Method of Linearization for Continuous Minimax Problems. Journal of Optimization Theory and Applications, 55, 271-287.

[8] Klessig, R. and E. Polak (1973). An Adaptive Precision Gradient Method for Optimal Control. SIAM Journal on Control, 11, 80-93.

[9] Legendre, Adrien-Marie (1805). Nouvelles methodes pour la determination desorbites descometes.

[10] L.Lin,Y.Shi, X.Wang and S.Yang(2016). k-sample upper expectation linear regression-Modeling, identifiability , estimation and prediction. Journal of Statistical Planning and Inference, 170, 15-26.

[11] Lu Lin, Ping Dong, Yunquan Song and Lixing Zhu.(2017). Upper Expectation Parametric Regression. Statistica Sinica, 27, 1265-1280.

[12] Lin, L. Liu, Y. X, Lin, C. (2017). Mini-max-risk and mini-mean-risk inferences for a partially piecewise regression. Statistics, 51, 745-765.

[13] Panin, V.M. (1981). Linearization Method for Continuous Min-max Problems. Kibernetika, 2, 75-78.

[14] Peng, S. (2005). Nonlinear expectations and nonlinear Markov chains. Chin. Ann. Math., 26B(2), 159-184.

[15] Seber, G. A. F., Wild, C. J. (1989). Nonlinear Regression. New York: John Wiley and Sons.

本文作者：徐清宣晓华

华院论文 | 一类非 i.i.d. 情形下的鲁棒学习算法

猜你喜欢