七，专著研读（Logistic回归）

分类：k-近邻算法，决策树，朴素贝叶斯，Logistic回归，支持向量机，AdaBoost算法。
运用
- k-近邻算法，使用距离计算来实现分类
- 决策树，构建直观的树来分类
- 朴素贝叶斯，使用概率论构建分类器
- Logistic回归，主要是通过寻找最优参数来正确分类原始数据
逻辑回归（Logistic Regression）：虽然名字中有“回归”两个字，但是它擅长处理分类问题。LR分类器适用于各项广义上的分类任务，例如：评论信息的正负情感分析，用户点击率，用户违约信息预测，垃圾邮件检测疾病预测，用户等级分类（二分类）。
逻辑回归和线性回归本质都是得到一条直线，不同的是线性回归的直线是尽可能去拟合输入变量x的分布，使得训练集中所有样本点到直线的距离最短；而逻辑回归的直线尽可能去拟合决策边界，使得训练集中的样本点尽可能的分开。两者目的不同。
二分类情况下：单位阶跃函数（海威赛德阶跃函数）。sigmoid函数较为容易处理。
- sigmoid函数公式
  
  $ f(x)=\frac{1}{1+e^{-x}}$
逻辑回归：通过将线性模型和sigmoid函数结合，可以得到逻辑回归公式：

y=\frac{1}{1+e^{-(\omega x+b)}}

y就是（0,1）的取值。
进行变换（左右乘log），可得

log\frac{y}{1-y}=\omega x+b

这是一个对数几率的公式。
二项Logistic回归

$P(y=0|x)=\frac{1}{1+e^{\omega x}}$

$ P(y=1|x)=\frac{e^{\omega x}}{1+e^{\omega x}}$
多项Logistic回归

$P(y=k|x)=\frac{e^{\omega x}}{1+\sum_{k-1}^{K-1}e^{\omega _{k} x}}$

$ P(y=K|x)=\frac{1}{1+\sum_{k-1}^{K-1}e^{\omega _{k} x}}$
LR与线性回归的区别
- 逻辑回归和线性回归是两类模型，逻辑回归是分类模型，线性回归是回归模型。
LR损失函数：使用损失函数预测模型的好坏，衡量真实值和预测值之间差距的函数，损失函数越小，模型就越好，最小损失0。

$ -log(x),y=1$

$-log(1-x),y=0$
把上边两个损失函数综合起来：

$-[ylog(x)+(1-ylog(1-x)]$

y是标签，分别取0,1。对于m个样本，总的损失函数为：

$J(\Theta )=-\frac{1}{m}\sum_{i=1}^{m}[y_{i}log(p(x_{i})+(1-y_{i})log(1-p(x_{i}))]$

这个式子中，m是样本数，y是标签，取值0或1，i表示第i个样本，p(x)表示预测的输出。
当损失过于小的时候，模型能拟合绝大部分的数据，这时候容易出现过拟合。防止过拟合引入正则化。
梯度下降：在最小化损失函数时，可以通过梯度下降法迭代求解，得到最小化的损失函数和模型参数值。
梯度下降的种类
- 批量梯度下降算法BGD
- 随机梯度下降算法SGD

七，专著研读（Logistic回归）

猜你喜欢