七,专著研读(Logistic回归)

七,专著研读(Logistic回归)

  • 分类:k-近邻算法,决策树,朴素贝叶斯,Logistic回归,支持向量机,AdaBoost算法。
  • 运用
    • k-近邻算法,使用距离计算来实现分类
    • 决策树,构建直观的树来分类
    • 朴素贝叶斯,使用概率论构建分类器
    • Logistic回归,主要是通过寻找最优参数来正确分类原始数据
  • 逻辑回归(Logistic Regression):虽然名字中有“回归”两个字,但是它擅长处理分类问题。LR分类器适用于各项广义上的分类任务,例如:评论信息的正负情感分析,用户点击率,用户违约信息预测,垃圾邮件检测疾病预测,用户等级分类(二分类)。
  • 逻辑回归和线性回归本质都是得到一条直线,不同的是线性回归的直线是尽可能去拟合输入变量x的分布,使得训练集中所有样本点到直线的距离最短;而逻辑回归的直线尽可能去拟合决策边界,使得训练集中的样本点尽可能的分开。两者目的不同。
  • 二分类情况下:单位阶跃函数(海威赛德阶跃函数)。sigmoid函数较为容易处理。
    • sigmoid函数公式

      $ f(x)=\frac{1}{1+e^{-x}}$

  • 逻辑回归:通过将线性模型和sigmoid函数结合,可以得到逻辑回归公式:

    y=\frac{1}{1+e^{-(\omega x+b)}}

    y就是(0,1)的取值。
    进行变换(左右乘log),可得

    log\frac{y}{1-y}=\omega x+b

    这是一个对数几率的公式。
  • 二项Logistic回归

    \(P(y=0|x)=\frac{1}{1+e^{\omega x}}\)


    $ P(y=1|x)=\frac{e^{\omega x}}{1+e^{\omega x}}$

  • 多项Logistic回归

    \(P(y=k|x)=\frac{e^{\omega x}}{1+\sum_{k-1}^{K-1}e^{\omega _{k} x}}\)


    $ P(y=K|x)=\frac{1}{1+\sum_{k-1}^{K-1}e^{\omega _{k} x}}$

  • LR与线性回归的区别
    • 逻辑回归和线性回归是两类模型,逻辑回归是分类模型,线性回归是回归模型。
  • LR损失函数:使用损失函数预测模型的好坏,衡量真实值和预测值之间差距的函数,损失函数越小,模型就越好,最小损失0。

    $ -log(x),y=1$


    \(-log(1-x),y=0\)

  • 把上边两个损失函数综合起来:

    \(-[ylog(x)+(1-ylog(1-x)]\)

    y是标签,分别取0,1。对于m个样本,总的损失函数为:

    \(J(\Theta )=-\frac{1}{m}\sum_{i=1}^{m}[y_{i}log(p(x_{i})+(1-y_{i})log(1-p(x_{i}))]\)

    这个式子中,m是样本数,y是标签,取值0或1,i表示第i个样本,p(x)表示预测的输出。

  • 当损失过于小的时候,模型能拟合绝大部分的数据,这时候容易出现过拟合。防止过拟合引入正则化。
  • 梯度下降:在最小化损失函数时,可以通过梯度下降法迭代求解,得到最小化的损失函数和模型参数值。
  • 梯度下降的种类
    • 批量梯度下降算法BGD
    • 随机梯度下降算法SGD

猜你喜欢

转载自www.cnblogs.com/zaw-315/p/11257719.html