实验结果小记

首先，步长要小于0.003，否则会出现以下现象，再大就会无法收敛，造成内存溢出，那么继续减小步长，会对结果有什么影响？
这里写图片描述

学习率 | 循环次数 | 房价预测结果 | $R^2 $
----|-------
0.003 |2000| 294631.58
4387.54
760441.45|0.71392655
0.001|2000|287257.76
22517.55
727070.50|0.70517853
0.0008|2000|284299.50
33414.92
707968.15|0.69839348
0.0006|2000|279788.63
50670.57
677832.63|0.68453488
0.0004|2000|272824.65
77973.78
630262.41|0.65473442

由上表结果可得：在循环次数不变的情况下，减小学习率， $R^2$ 会相应减小，原因可能是因为步长太小，以至于2000的循环次数迭代完之后任然离最小值比较远，所以减小步长相应要增加循环次数，下面进行验证

学习率 | 循环次数 | 房价预测结果 | $R^2 $
----|-------
0.003 |20000| 327361.00
10233.13
772449.34|0.72012177
0.001|20000|304086.70
5933.67
764135.22|0.71682817
0.0008|20000|301470.77
5450.44
763200.75|0.71612385
0.0006|20000|298797.69
4956.85
762245.53|0.71533436
0.0004|20000|296061.56
4471.73
761236.07|0.71444961

结果很明显，对比两个表格来看，步长相等时，循环次数越大， $R^2$ 的值越高，说明越接近谷底，只能说更接近，随着迭代次数越来越大的时候，也许能够接近完美值，但是个人觉得，步长过于小了就必然要执行更多的多次的循环，执行时间过长，所以取折中一些的数据就好

关于 $\lambda$ 的取值对 $R^2$ 的影响
以步长为0.003，循环2000次为例：

$\lambda$ | 循环次数 | 房价预测结果 | $R^2 $
----|-------
500|2000|282973.86
102356.45
609060.43|0.64421777
200|2000|289264.91
40919.88
702126.89|0.69810316
100 |2000| 294631.58
4387.54
760441.45|0.71392655
80|2000|296097.75
-4799.49
775314.42|0.71572473
50|2000|298632.98
-20172.41
800345.779|0.71668505
10|2000|302789.07
-44322.71
839970.57|0.71288439
1|2000|303871.86
-50448.17
850070.21|0.71086923
0.1|2000|303983.51
-51076.45
851107.12|0.71063822
0.05|2000|303989.73
-51111.44
851164.87|0.71062523

我将 $\lambda$ 的取值和 $R^2$ 的关系画了一张图，如下

这里写图片描述

猜你喜欢