Lasso回归与岭回归

正则化

正则化是指在损失函数后面添加一个范数，以此防止模型过拟合的方式。

范数定义：
$||x||_p = (\sum_{i=1}^{n}|x|^p)^\frac{1}{p}$
1）p = 1时，即L1范数：
$||x||_p = (\sum_{i=1}^{n}|x|)$
2）p = 2时，即L2范数：
$||x||_p = (\sum_{i=1}^{n}|x|^2)^\frac{1}{2}$
通过对损失函数添加正则项，整体上压缩了参数的大小，从而防止过拟合。

Lasso回归

Lasso回归(Least absolute shrinkage and selection operator / 最小绝对值收敛和选择算子，又称套索算法)，损失函数如下：
$\frac{1}{n}\sum_{i=1}^{n}(y-y_i') + \lambda ||w||_1$
其中， $w||_1$ 为参数的一范数， $\lambda$ 为权重

岭回归

岭回归的损失函数如下：
$\frac{1}{n}\sum_{i=1}^{n}(y-y_i') + \lambda ||w||_2$
其中， $w||_2$ 为参数的二范数， $\lambda$ 为权重

sklearn实现Lasso回归与岭回归

import numpy as np
import sklearn.linear_model as lm
import sklearn.metrics as sm
import matplotlib.pyplot as plt

x, y = [], []
with open('D:\\python\\data\\abnormal.txt', 'r') as f:
    for line in f.readlines():
        data = [float(substr) for substr in line.split(',')]
        x.append(data[:-1])
        y.append(data[-1])
x = np.array(x)
y = np.array(y)

# 1)
# 创建线性回归器
model = lm.LinearRegression()
# 训练线性回归器
model.fit(x, y)
# 预测
pred_y = model.predict(x)

# 2)
# 创建Lasso回归器
model_lasso = lm.Lasso(alpha=0.5, # 损失函数中L1范数的权重
         max_iter=1000 # 最大迭代次数
        )
# 训练Lasso回归器
model_lasso.fit(x, y)
# 预测
pred_y_lasso = model_lasso.predict(x)

# 3)
# 创建岭回归器
model_ridge = lm.Ridge(alpha=200, # 正则强度，改值越大，异常样本权重越小
                       max_iter=1000 # 最大迭代次数
                      )
# 训练岭回归器
model_ridge.fit(x, y)
# 预测
pred_y_ridge = model_ridge.predict(x)

print('--------可视化--------')
plt.figure('Linear & Ridge & Lasso', facecolor='lightgray')
plt.title('Linear & Ridge & Lasso', fontsize=18)
plt.xlabel('x', fontsize=18)
plt.ylabel('y', fontsize=18)
plt.tick_params(labelsize=12)
plt.grid(':')

plt.scatter(x, y, c='red', alpha=0.8, s=60, label='Sample')

plt.plot(x, pred_y, c='yellow', label='Linear')
plt.plot(x, pred_y_lasso, c='blue', label='Lasso')
plt.plot(x, pred_y_ridge, c='green', label='Ridge')

plt.legend()
plt.show()

在这里插入图片描述

Lasso回归与岭回归

正则化

Lasso回归

岭回归

sklearn实现Lasso回归与岭回归

猜你喜欢