分类与预测-LogisticRegression

1. 分类与预测

1.1 介绍与实现过程

  1. 分类和预测是预测问题两种主要类型
    • 分类主要是预测分类标号(离散属性),构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别中。
    • 预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值,是指即那里两种或两种以上变量间相互依赖的函数模型,然后进行预测和控制。
  2. 实现过程
    • 第一步:学习,通过归纳分析训练样本集建立数据模型,得到相应规则
    • 第二步:分类/预测:先用已知的测试样本评估准确性,通过检验后对未知数据进行预测

1.2 常用的分类与预测的算法

  1. 方法介绍
    • 回归分析:是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。包括:线性回归、非线性回归、logistics回归、岭回归、主成分回归、偏最小二乘回归等模型
    • 决策树:采用自顶向下的递归方式,在内部节点进行属性比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类
    • 人工神经网络:是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络输入与输出变量之间关系的模型
    • 贝叶斯网络:又被成为信度网络
    • 支持向量机:是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法

1.3 Logistic回归分析介绍

  1. Logistic回归的本质实际上是:假设数据服从这个分布,然后使用极大似然估计做参数估计
  2. 对于二分类问题,回归模型中只有1-0两种取值(如是和否、发生不发生)假设在p个独立自变量 x 1 x_1 x1 x 2 x_2 x2 x 3 x_3 x3 x p x_p xp作用下,记y取1的概率为 p = P ( y = 1 ∣ X ) p=P(y=1|X) p=P(y=1X),取0的概率为 1 − p 1-p 1p,取1和取0的概率之比为 p 1 − p \frac{p}{1-p} 1pp,称为事件的优势比odds,对优势比取对数,可得: L o g i t ( p ) = l n ( p 1 − p ) Logit(p)=ln(\frac{p}{1-p}) Logit(p)=ln(1pp),则 p = 1 1 + e − z p=\frac{1}{1+e-z} p=1+ez1即为Logistic函数

1.4 案例操作

import pandas as pd
from sklearn.linear_model import LogisticRegression as LR
filename = r"..\data\bankloan.xls"
data = pd.read_excel(filename)
x= data.iloc[:,:8].values
y = data.iloc[:,8].values
lr = LR()
lr.fit(x,y)
print('模型的平均准确度为:%s'%lr.score(x,y))

猜你喜欢

转载自blog.csdn.net/ava_zhang2017/article/details/108306518