范数的数学意义

L0,L1,L2范数的数学意义

(如有不当,敬请斧正)

Tips

范数所表示的一些数学意义:众数,中位数,均值

  • A : \mathcal{A:} L0范数:求L0范数最小时,表示的是数据中的众数modes(假设 0 0 = 0 0^0=0 的条件下)。其中 Y : { y 1 , y 2 , . . . , y k } \mathcal{Y}:\{{y_1,y_2,...,y_k}\} 是数据集样本, β \beta 是目标。现目前主流公认较多的均是 0 0 = 1 0^0=1 ,但是此刻 0 0 = 0 0^0=0 假设会对下列数学表示非常简便,并且能很好体现统一性。
    L 0 = Y β 0 = 1 k i = 1 k ( y i β ) 0 L0=\|\mathcal{Y-\beta}\|_0=\frac{1}{k}\sum_{i=1}^{k}{(y_i - \beta)^0}
    特别地,在机器学习中一般并没有使用L0范数,因为一般需要遍历整个数据,开销较大;还有一点就是L0范数能够让0变得多,所以一般用于稀疏。此刻很明显地,当 y i y_i β \beta 不相等的时候,值总是为1,只有当 β \beta 是数据集 Y \mathcal{Y} 的众数时候,才能保证L0范数的值最小。

  • B : \mathcal{B:} L1范数:即是绝对值距离;求L1范数最小时,表示的是数据中的中值(中位数medians)。其中 Y \mathcal{Y} β \beta 表示的意义不变。很好理解就是目标 β \beta 要尽可能离数据集 Y \mathcal{Y} 更近,表示出L1范数形式如下:
    L 1 = Y β 1 = 1 k i = 1 k y i β L1=\|\mathcal{Y}-\beta\|_1=\frac{1}{k}\sum_{i=1}^{k}{|y_i - \beta|}
    要找出使L1范数最小的 β \beta 的值,那么即对它求偏导:
    L 1 β = 1 k i = 1 k s g n ( y i β ) \frac{\partial L1}{\partial \beta}=-\frac{1}{k}\sum_{i=1}^{k}{ sgn( y_i - \beta)}
    其中 s g n ( . ) sgn(.) 是符号函数(值为+1或者-1),当 L 1 β \frac{\partial L1}{\partial \beta} 为0的时候,即 β \beta 应该是 Y \mathcal{Y} 数据集的中值(保证 y i y_i 大于 β \beta 和小于 β \beta 的部分是相同的,才能确保得到的符号函数正负1的值一样来相互抵消,从而偏导为0,得到绝对值距离最值)。

  • C : \mathcal{C:} L2范数:即是平方差(欧式)距离(一般都不用开根号,直接用平方的形式);求L2范数最小的时候,表示的是数据中的均值means。其中 Y \mathcal{Y} β \beta 表示的意义不变。表示出L2范数形式如下:
    L 2 = Y β 2 2 = 1 k i = 1 k ( y i β ) 2 L2=\|\mathcal{Y}-\beta\|_2^2=\frac{1}{k}\sum_{i=1}^{k}{(y_i - \beta)^2}
    同样求偏导,当 L 2 β \frac{\partial L2}{\partial \beta} 为0的时候,即 β \beta 应该是均值。
    L 2 β = 2 k i = 1 k ( y i β ) \frac{\partial L2}{\partial \beta}=-\frac{2}{k}\sum_{i=1}^{k}{( y_i - \beta)}
    L 2 β = 0 β = 1 k i = 1 k y i \frac{\partial L2}{\partial \beta}=0 \rightarrow \beta=\frac{1}{k}\sum_{i=1}^{k}{y_i}

参考

http://www.johnmyleswhite.com/notebook/2013/03/22/modes-medians-and-means-an-unifying-perspective/

发布了27 篇原创文章 · 获赞 15 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/qq_42192910/article/details/103993222