《机器学习基石》第10节课学习笔记 - 代码天地

《机器学习基石》第10节课学习笔记

其他 2019-05-25 15:14:40 阅读次数: 0

第10节课 Logistic Regression

本节课继续学习了回归的问题，介绍了Logistic Regression逻辑回归（逻辑斯蒂回归）问题。关于这个逻辑回归问题，一定要好好理解。

一、Logistic Regression Problem

一个心脏病预测的问题：根据患者的年龄、血压、体重等信息，来预测患者是否会有心脏病。很明显这是一个二分类问题，其输出y只有{-1,1}两种情况。

二元分类，一般情况下，理想的目标函数f(x)>0.5，则判断为正类1；若f(x)<0.5，则判断为负类-1。

但是，如果我们想知道的不是患者有没有心脏病，而是到底患者有多大的几率是心脏病。这表示，我们更关心的是目标函数的值（分布在0,1之间），表示是正类的概率（正类表示是心脏病）。这跟我们原来讨论的二分类问题不太一样，我们把这个问题称为软性二分类问题（’soft’ binary classification）。这个值越接近1，表示正类的可能性越大；越接近0，表示负类的可能性越大。

对于软性二分类问题，理想的数据是分布在[0,1]之间的具体值，但是实际中的数据只可能是0或者1，我们可以把实际中的数据看成是理想数据加上了噪声的影响。

如果目标函数是f(x)=P(+1|x)∈[0,1] $f (x) = P (+ 1 | x) \in [0, 1]$

首先，根据我们之前的做法，对所有的特征值进行加权处理。计算的结果s，我们称之为’risk score’：

但是特征加权和s∈(−∞,+∞)，如何将s值限定在[0,1]之间呢？一个方法是使用sigmoid Function，记为θ(s)。那么我们的目标就是找到一个hypothesis：

Sigmoid Function函数记为：

满足 $θ (- \infty) = 0$

$θ (- \infty) = 0$

二、Logistic Regression Error

现在我们将Logistic Regression与之前讲的Linear Classification、Linear Regression做个比较：

这三个线性模型都会用到线性scoring function ：

linear classification的误差使用的是0/1 err；linear regression的误差使用的是squared err。那么logistic regression的误差该如何定义呢？

先介绍一下“似然性”的概念。目标函数 $f (x) = P (+ 1 | x)$

如果将w代入的话：

为了把连乘问题简化计算，我们可以引入ln操作，让连乘转化为连加：

接着，我们将maximize问题转化为minimize问题，添加一个负号就行，并引入平均数操作1/N：

将logistic function的表达式带入，那么minimize问题就会转化为如下形式：

至此，我们得到了logistic regression的err function，称之为cross-entropy error交叉熵误差：

三、Gradient of Logistic Regression Error

我们已经推导了Ein的表达式，那接下来的问题就是如何找到合适的向量w，让 $E_{i n}$

$E_{i n}$

Logistic Regression的Ein是连续、可微、二次可微的凸曲线（开口向上），根据之前Linear Regression的思路，我们只要计算Ein的梯度为零时的w，即为最优解。

对Ein计算梯度，学过微积分的都应该很容易计算出来：

最终得到的梯度表达式为：

为了计算Ein最小值，我们就要找到让 $\nabla E_{i n} (w)$

$\nabla E_{i n} (w)$

之前所说的Linear Regression有closed-form解，可以说是“一步登天”的；但是PLA算法是一步一步修正迭代进行的，每次对错误点进行修正，不断更新w值。PLA的迭代优化过程表示如下：

四、Gradient Descent

根据上一小节PLA的思想，迭代优化让每次w都有更新：

我们把Ein(w)曲线看做是一个山谷的话，要求Ein(w)最小，即可比作下山的过程。整个下山过程由两个因素影响：一个是下山的单位方向v；另外一个是下山的步长η。

利用微分思想和线性近似，假设每次下山我们只前进一小步，即η很小，那么根据泰勒Taylor一阶展开，可以得到：

迭代的目的是让Ein越来越小，即让 $E_{i n} (w_{t} + η v) < E_{i n} (w_{t})$

$E_{i n} (w_{t} + η v) < E_{i n} (w_{t})$

v是单位向量，v每次都是沿着梯度的反方向走，这种方法称为梯度下降（gradient descent）算法。那么每次迭代公式就可以写成：

下面讨论一下 $η$

$η$

对学习速率 $η$

$η$

其中：

总结一下基于梯度下降的Logistic Regression算法步骤如下：

猜你喜欢

转载自www.cnblogs.com/lxx0/p/lxx_learning-notes-10.html

《机器学习基石》第10节课学习笔记

《机器学习基石》第1节课学习笔记

《机器学习基石》第9节课学习笔记

《机器学习基石》第12节课学习笔记

《机器学习基石》第15节课学习笔记

《机器学习基石》第2节课学习笔记

《机器学习基石》第4节课学习笔记

《机器学习基石》第5节课学习笔记

《机器学习基石》第8节课学习笔记

《机器学习基石》第11节课学习笔记

《机器学习基石》第3节课学习笔记

《机器学习基石》第13节课学习笔记

《机器学习基石》第16节课学习笔记（未完成）

林轩田机器学习基石笔记（第10-13节）——机器学习的分类

机器学习笔记第10课

机器学习基石——第三节课（笔记）

机器学习基石第十二讲笔记

机器学习基石第十讲笔记

机器学习基石第十三讲笔记

机器学习基石第十五讲笔记

机器学习基石第十六讲笔记

机器学习基石第十一讲笔记

机器学习基石第十六周笔记

林軒田机器学习基石笔记（第6节）

林轩田机器学习基石笔记（第8节）——PLA循环停止条件的探讨

林轩田机器学习基石笔记（第7节）——PLA算法

林轩田机器学习基石笔记（第4节）

林轩田机器学习基石笔记（第1节）

林轩田机器学习基石笔记（第9节）——Pocket AIgorithm（口袋算法）

机器学习基石（笔记）

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)