1. 线性回归基本概念

　　线性回归假设因变量与自变量之间存在线性关系，因变量可通过自变量线性叠加而得到，即因变量和自变量之间可用如下方式表示。

　　式中为自变量，为权重系数，为偏置。

　　线性回归就是要解决如何利用样本求取拟合出上述表达式，获得最佳直线的问题，最常用的就是最小二乘法。

　　最小二乘法：最佳拟合线性，将已知样本的自变量代入拟合直线，得到的观测值与实际值之间的误差平方和最小。

2、一元线性回归

　　为了好理解，先从简单的情况开始，即一元线性回归。

（1）利用方程组来解系数

　　假设因变量和自变量可用如下函数表示：

　　对于任意样本点有误差误差平方和

　　那什么样的a和b会使得误差平方和最小呢？

　　上面是求最值的问题，我们会想到导数和偏导数，这里在偏导数等于0的地方能取到极值，并且也是最值。
分别对a和b求偏导得到如下表达式：

　　通过对二元一次方程组

　　进行求解，可以得到如下解：

　　上面的数学过程用代码表示如下：

import numpy as np
import matplotlib.pyplot as plt

def calcAB(x,y):
    """
    一元线性回归
    """
    n = len(x)
    sumX, sumY, sumXY, sumXX = 0, 0, 0, 0
    for i in range(0, n):
        sumX += x[i]
        sumY += y[i]
        sumXX += x[i] * x[i]
        sumXY += x[i] * y[i]
    a = (n * sumXY - sumX * sumY) / (n * sumXX - sumX * sumX)
    b = (sumXX * sumY - sumX * sumXY) / (n * sumXX - sumX * sumX)
    return a, b
    
xi = [1,2,3,4,5,6,7,8,9,10]
yi = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
a,b=calcAB(xi,yi)
print("y = %10.5fx + %10.5f" %(a,b))

x = np.linspace(0,10)
y = a * x + b
plt.plot(x,y)
plt.scatter(xi,yi)
plt.show()

　　python数据散点和拟合的直线如下：

（2）利用矩阵的方法来求解系数

　　函数

　　也可以表示成如下的形式

　　式中

　　对于n个样本，此时损失函数（即误差平方和）为：

　　假如我们将样本表示成如下形式：

　　则

　　进一步，可以将损失函数表示如下形式：

　　L对W求导，可得到

　　令导数为0,则有

　　从而

　　进而可以求得

x = [1,2,3,4,5,6,7,8,9,10]
y = [10,11.5,12,13,14.5,15.5,16.8,17.3,18,18.7]
X = np.vstack([np.ones(len(x)),x]).T
Y = np.array(y).T
W=np.dot(np.matrix(np.dot(X.T,X))**-1,np.dot(X.T,Y))
yi=np.dot(X,W.T)#这里公式里是不需要转置的，但由于矩阵运算时W自动保存成一行多列的矩阵，所以多转置一下，配合原公式的计算。
print(X)
print(Y)
print(W)
print(yi)#拟合出的预测点
plt.plot(x,y,'o',label='data',markersize=10)
plt.plot(x,yi,'r',label='line')
plt.show()