Kernel Method核方法—基本概念

这里只是简单叙述了核方法中运用到的几个概念和相互的关系,包括什么是核函数Kernel function、正定函数Positive definite function、再生核希尔伯特空间Reproducing Kernel Hilbert space (RKHS)再生核函数Repreducing kernel,以及他们之间的关系,下一篇再对其应用进行深入探讨

定义:

  1. 核函数(Kernel function)
    X \mathcal{X} 是输入空间( R n \bm{R}^n 的子集), H \mathcal{H} 为特征空间(希尔伯特空间),如果存在一个从 X \mathcal{X} H \mathcal{H} 的映射(特征映射feature map) ϕ ( x ) : X H \phi(x):\mathcal{X}\to\mathcal{H} ,使得对所有 x , x X x,x'\in\mathcal{X} ,二元函数 k ( x , x ) : X × X R k(x,x'):\mathcal{X}\times\mathcal{X}\to\bm{R} 可以写成 k ( x , x ) = ϕ ( x ) , ϕ ( x ) k(x,x')=\langle \phi(x),\phi(x')\rangle ,则 k ( x , x ) k(x,x') 为核函数。

  2. 正定函数(Positive definite function)
    二元函数 k ( x , x ) : X × X R k(x,x'):\mathcal{X}\times\mathcal{X}\to\bm{R} 为正定函数,若满足:
    对称性:对任意 x , x X x,x'\in\mathcal{X} ,有 k ( x , x ) = k ( x , x ) k(x,x')=k(x',x)
    正定性:对任意 α i , x i \alpha_i,x_i ,有 i , j = 1 n α i α j k ( x i , x j ) 0 \sum_{i,j=1}^n\alpha_i\alpha_jk(x_i,x_j)\geqslant0

  3. 再生核希尔伯特空间(Reproducing Kernel Hilbert space , RKHS)
    H \mathcal{H} 为函数 f : X R f:\mathcal{X}\to\bm{R} 的希尔伯特空间, H \mathcal{H} 称为RKHS,若存在二元函数 k ( x , x ) : X × X R k(x,x'):\mathcal{X}\times\mathcal{X}\to\bm{R} 满足:
    对任意 x X x\in\mathcal{X} ,有 k ( , x ) H k(\cdot,x)\in \mathcal{H}
    对任意 x X , f H x\in\mathcal{X},f\in\mathcal{H} ,有 f , k ( , x ) = f ( x ) \langle f,k(\cdot,x)\rangle=f(x) (再生性reproducing property)

  4. 再生核函数(Repreducing kernel)
    满足3中两个条件称为RKHS H \mathcal{H} 的Repreducing kernel。

关系:

  1. kernel \Rightarrow PD function
    即核函数一定是正定函数。
    因为内积的定义满足对称性和正定性,这个比较显然。

  2. reproducing kernel \Rightarrow kernel
    即再生核函数一定是核函数。
    因为如果 k ( x , x ) k(x,x') 为再生核函数,它的第一条性质保证了对任意 x X x'\in\mathcal{X} k ( , x ) H k(\cdot,x')\in \mathcal{H} ,再有第二条的再生性,有对任意 x X x\in\mathcal{X} k ( , x ) , k ( , x ) = k ( x , x ) \langle k(\cdot,x'),k(\cdot,x)\rangle=k(x,x') ,因此 k ( , ) k(\cdot,\cdot) 是核函数 k ( x , x ) k(x,x') 的特征映射,因此 k ( x , x ) k(x,x') 是核函数。

  3. PD function \Rightarrow reproducing kernel
    即正定函数一定是再生核函数。
    由Moore-Aronszajn定理可得。

综上,kernel \Longleftrightarrow PD function \Longleftrightarrow reproducing kernel

  1. RKHS和再生核函数是相互唯一确定的
    H \mathcal{H} 是一个再生核希尔伯特空间当且仅当 H \mathcal{H} 有一个再生核函数。
    再生核函数如果存在,则唯一。(证明如下:假设 H \mathcal{H} 有两个再生核函数 k 1 k_1 k 2 k_2 ,则对任意 x X , f H x\in\mathcal{X},f\in\mathcal{H} ,有 f , k 1 ( , x ) k 2 ( , x ) = f ( x ) f ( x ) = 0 \langle f,k_1(\cdot,x)-k_2(\cdot,x)\rangle=f(x)-f(x)=0 ,特别地,取 f = k 1 ( , x ) k 2 ( , x ) f=k_1(\cdot,x)-k_2(\cdot,x) ,则 k 1 ( , x ) k 2 ( , x ) 2 = 0 \|k_1(\cdot,x)-k_2(\cdot,x)\|^2=0 ,对任意 x X x\in\mathcal{X} 成立,因此 k 1 = k 2 k_1=k_2

Moore-Aronszajn定理

给定二元函数 k : X × X R k:\mathcal{X}\times\mathcal{X}\to\bm{R} 为正定函数,则存在唯一的再生核希尔伯特空间(RKHS) H \mathcal{H} ,它的再生核函数(reproducing kernel)为 k k

证明如下:

  1. 内积空间
    H 0 = { f ( x ) f ( x ) = i = 1 n α i k ( x i , x ) , n N + } \mathcal{H}_0=\{f(x)|f(x)=\sum_{i=1}^n\alpha_ik(x_i,x), n\in\mathbb{N^+}\} ,对任意 f , g H 0 f,g\in\mathcal{H}_0 f = i = 1 n α i k ( x i , x ) f=\sum_{i=1}^n\alpha_ik(x_i,x) g = j = 1 n β j k ( x j , x ) g=\sum_{j=1}^n\beta_jk(x_j,x) ,在 H 0 \mathcal{H}_0 上定义内积: f , g = i , j = 1 α i β j k ( x i , x j ) \langle f,g\rangle=\sum_{i,j=1}\alpha_i\beta_jk(x_i,x_j) ,下面证明它是良定义的。
    (线性性容易验证,只需证明由它诱导的范数满足正定性,即 f 2 = 0 f = 0 \|f\|^2=0\Rightarrow f=0 对任意 x X x\in\mathcal{X} 成立)
    因为 k k 是一个正定函数,因此有 f 2 = f , f = i , j = 1 α i α j k ( x i , x j ) = α T K α 0 \|f\|^2=\langle f,f\rangle=\sum_{i,j=1}\alpha_i\alpha_jk(x_i,x_j)=\alpha^TK\alpha \geqslant0 ,其中 K K 为Gram矩阵。
    f ~ = i = 1 n α i k ( x i , ) + t k ( x , ) \tilde{f}=\sum_{i=1}^n\alpha_ik(x_i,\cdot)+tk(x,\cdot) ,则对任意 t R t\in\mathbb{R} 有:
    f ~ 2 = 1 i , j n α i α j k ( x i , x j ) + 2 t i = 1 n α i k ( x i , ) , k ( x , ) + t 2 k ( x , ) , k ( x , ) = f 2 + 2 t i = 1 n α i k ( x i , x ) + t 2 k ( x , x ) 2 t f ( x ) + t 2 k ( x , x ) 0 \begin{aligned} \|\tilde{f}\|^2&=\sum_{1\leqslant i,j\leqslant n}\alpha_i\alpha_jk(x_i,x_j)+2t\sum_{i=1}^n\alpha_i\langle k(x_i,\cdot),k(x,\cdot)\rangle+t^2\langle k(x,\cdot),k(x,\cdot)\rangle\\ &=\|f\|^2+2t\sum_{i=1}^n\alpha_i k(x_i,x)+t^2k(x,x)\\ &\geqslant 2tf(x)+t^2k(x,x)\\ &\geqslant0 \end{aligned} 如果 k ( x , x ) = 0 k(x,x)=0 ,显然有 f ( x ) = 0 f(x)=0
    如果 k ( x , x ) > 0 k(x,x)>0 ,则 2 t f ( x ) + t 2 k ( x , x ) = k ( x , x ) [ t + f ( x ) k ( x , x ) ] 2 f 2 ( x ) k ( x , x ) 0 2tf(x)+t^2k(x,x)=k(x,x)[t+{f(x)\over k(x,x)}]^2-{f^2(x)\over k(x,x)}\geqslant0 能推出 f 2 ( x ) k ( x , x ) 0 -{f^2(x)\over k(x,x)}\geqslant0 ,因为 f 2 ( x ) 0 {f^2(x)}\geqslant0 k ( x , x ) 0 k(x,x)\geqslant0 ,因此 f ( x ) = 0 f(x)=0
    至此, H 0 \mathcal{H}_0 是一个内积空间。

  2. 希尔伯特空间
    H 0 \mathcal{H}_0 不完备,取 H 0 \mathcal{H}_0 的闭包,即把 H 0 \mathcal{H}_0 中无穷的组合考虑进来,定义为 H k = H 0 \mathcal{H}_k=\overline{\mathcal{H}_0} ,则 H k \mathcal{H}_k 为希尔伯特空间(完备的内积空间为希尔伯特空间)。

  3. 再生核希尔伯特空间
    需要证明 H k \mathcal{H}_k 是一个RKHS,且 k k 是它的再生核函数。
    即验证 H k \mathcal{H}_k k k 满足RKHS定义的两个条件:
    因为 H 0 = { f ( x ) f ( x ) = i = 1 n α i k ( x i , x ) , n N + } \mathcal{H}_0=\{f(x)|f(x)=\sum_{i=1}^n\alpha_ik(x_i,x), n\in\mathbb{N^+}\} ,所以 k ( , x ) H 0 H k k(\cdot,x)\in \mathcal{H}_0\subseteq \mathcal{H}_k
    f , k ( , x ) H k = lim x + i = 1 n α i k ( x i , ) , k ( , x ) H 0 = lim x + i = 1 n α i k ( x i , ) , k ( , x ) H 0 = lim x + i = 1 n α i k ( x i , x ) = f ( x ) \begin{aligned} {\langle f,k(\cdot,x)\rangle}_{\mathcal{H}_k}&=\lim_{x\to +\infty}\langle \sum_{i=1}^n\alpha_ik(x_i,\cdot),k(\cdot,x)\rangle_{\mathcal{H}_0}\\ &=\lim_{x\to +\infty}\sum_{i=1}^n\alpha_i\langle k(x_i,\cdot),k(\cdot,x)\rangle_{\mathcal{H}_0}\\ &=\lim_{x\to +\infty}\sum_{i=1}^n\alpha_ik(x_i,x)\\ &=f(x)\\ \end{aligned} 最后一步用到了范数的收敛性质 lim n + f ( x ) i = 1 n α i k ( x i , x ) = 0 \lim_{n\to +\infty}\|f(x)-\sum_{i=1}^n\alpha_ik(x_i,x)\|=0 以及逐点收敛的关系,这里不严格证明。
    至此,证明了 H k \mathcal{H}_k 是一个RKHS,且 k k 是它的再生核函数。所以正定函数一定是再生核函数。

  4. 唯一性
    是否存在另一个RKHS它的再生核函数也是 k k 呢?如果存在另一个 H k \mathcal{H}_k' 并且它的再生核函数也是 k k ,则有 H 0 H k \mathcal{H}_0\subseteq\mathcal{H}_k' 。又因为 H k = H 0 \mathcal{H}_k=\overline{\mathcal{H}_0} ,所以 H 0 = H k = H k \overline{\mathcal{H}_0}=\mathcal{H}_k=\mathcal{H}_k' ,即这样的RKHS是唯一的。

参考资料

发布了32 篇原创文章 · 获赞 33 · 访问量 6629

猜你喜欢

转载自blog.csdn.net/weixin_44750583/article/details/97522067