为什么机器学习（一）——Hessian矩阵的正定性为什么可以决定函数是否有极值

其他 2020-03-15 13:41:16 阅读次数: 0

为什么机器学习（一）——Hessian矩阵的正定性为什么可以决定函数是否有极值

在学习机器学习的过程中，我们不可绕开的是训练模型的时候怎么找到损失函数的极值。
可能大家都曾记住过这样一个结论：若M点处函数的梯度为0，则M为驻点，那么：
（1）Hessian矩阵正定=>函数在M点有极小值
（2）Hessian矩阵负定=>函数在M点有极大值
（3）Hessian矩阵不定=>M点不是极值点
最初我看到这个结论的时候把他当公式背下来了，但是时间久了容易忘而且理解不深刻，最近试着证明理解了一下，希望大家批评指正。

1.引理：多元函数的Taylor展开

多元函数的在 $\vec x_0$ 处的Taylor展开为：

f(x_1,x_2,......,x_n) = f(x_{0(1)},x_{0(2)},......,x_{0(n)})+ \sum_{i=1}^{n}f'_{x_{0(i)}}(x_{0(1)},x_{0(2)},......,x_{0(n)})(x_i - x_{0(i)})\\+ \frac{1}{2!}\sum_{i,j=0}^n(x_i-x_0(i))(x_j-x_{0(j)})f''_{x_0(i)x_0(j)}(x_{0(1)},x_{0(2)},......,x_{0(n)}) + o^n

写成矩阵形式：

f(\vec x) = f(\vec x_0) + [\nabla f(x_0)]^T(\vec x - \vec x_0) +\frac{1}{2!}[\vec x - \vec x_0]^TH(x_0)[\vec x - \vec x_0] + o^n

其中 $H$ 是Hessian矩阵

2.从极值原理出发看为什么有极值

假设 $x_0$ 是驻点，我们想判断这个点是否是极值点，那么要看 $f(x_0+\Delta x)$ 和 $f(x_0)$ 的关系:
由Taylor展开的矩阵形式：

$f(\vec x + \vec {\Delta x})-f(\vec x) = [\nabla f(x_0)]^T( \vec {\Delta x}) +\frac{1}{2!}[ \vec {\Delta x}]^TH(x_0)[ \vec {\Delta x}] + o^n \tag{1}$

由于 $x_0$ 是驻点,所以 $[\nabla f(x_0)]^T$ 为0，忽略 $o^n$ ,则（1）式的正负仅与 $[ \vec {\Delta x}]^TH(x_0)[ \vec {\Delta x}]$ 有关,故:
（1）Hessian矩阵正定=>(1)式大于0恒成立，函数在M点有极小值
（2）Hessian矩阵负定=>(1)式小于0恒成立函数在M点有极大值
（3）Hessian矩阵不定=>(1)式正负性难料，M点不是极值点

游离态GLZ不可能是金融技术宅

发布了11 篇原创文章 · 获赞 4 · 访问量 1131

私信关注

猜你喜欢

转载自blog.csdn.net/qq_37477357/article/details/104750718

为什么机器学习（一）——Hessian矩阵的正定性为什么可以决定函数是否有极值

为什么机器可以学习（一）

为什么65535是极值

为什么说半正定矩阵是凸锥

【机器学习】激活函数三连 —— 为什么？是什么？有什么？

Kryo为什么比Hessian快

Kryo 为什么比 Hessian 快

凸函数的Hessian矩阵与高斯牛顿下降法增量矩阵半正定性的理解

为什么交叉熵可以作为机器学习和深度学习的损失函数？

【机器学习算法】为什么交叉熵可以用作逻辑回归(分类模型)的损失函数 ?

机器学习为什么强大？

Hessian矩阵正定与函数凹凸性的关系

为什么OpenAPI是未来企业数字化转型的决定性因素？

机器学习之Logistic回归激活函数为什么是Sigmoid？

为什么机器学习（三）—— 为什么softmax这样求导

为什么有的机器学习应用公司必将失败？

机器学习验证集为什么不再有新意？

构造函数和析构函数是否可以被重载,为什么?

第三章-累到无力抵抗为什么意志力和肌肉一样有极限

机器学习 | 为什么softmax函数需要减去一个max值

为什么“极大似然估计表达式的极值”可以用来估计参数

显示方程的图像，判断是否有极值

为什么要有机器学习，机器学习能够做什么

为什么深度优先搜索可以判定简单图中是否有环，而宽度优先搜索不行？

判断链表有环——为什么快慢指针可以解决“判断链表是否成环”的问题？

为什么微型芯片是机器学习的命门？

机器学习：为什么需要验证集？

对称矩阵及正定性

矩阵正定性判定

为什么有函数调用栈?

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)