实验结果小记

首先,步长要小于0.003,否则会出现以下现象,再大就会无法收敛,造成内存溢出,那么继续减小步长,会对结果有什么影响?
这里写图片描述

学习率 | 循环次数 | 房价预测结果 | $R^2 $
----|-------
0.003 |2000| 294631.58
4387.54
760441.45|0.71392655
0.001|2000|287257.76
22517.55
727070.50|0.70517853
0.0008|2000|284299.50
33414.92
707968.15|0.69839348
0.0006|2000|279788.63
50670.57
677832.63|0.68453488
0.0004|2000|272824.65
77973.78
630262.41|0.65473442

由上表结果可得:在循环次数不变的情况下,减小学习率, R 2 R^2 会相应减小,原因可能是因为步长太小,以至于2000的循环次数迭代完之后任然离最小值比较远,所以减小步长相应要增加循环次数,下面进行验证

学习率 | 循环次数 | 房价预测结果 | $R^2 $
----|-------
0.003 |20000| 327361.00
10233.13
772449.34|0.72012177
0.001|20000|304086.70
5933.67
764135.22|0.71682817
0.0008|20000|301470.77
5450.44
763200.75|0.71612385
0.0006|20000|298797.69
4956.85
762245.53|0.71533436
0.0004|20000|296061.56
4471.73
761236.07|0.71444961

结果很明显,对比两个表格来看,步长相等时,循环次数越大, R 2 R^2 的值越高,说明越接近谷底,只能说更接近,随着迭代次数越来越大的时候,也许能够接近完美值,但是个人觉得,步长过于小了就必然要执行更多的多次的循环,执行时间过长,所以取折中一些的数据就好

关于 λ \lambda 的取值对 R 2 R^2 的影响
以步长为0.003,循环2000次为例:

λ \lambda | 循环次数 | 房价预测结果 | $R^2 $
----|-------
500|2000|282973.86
102356.45
609060.43|0.64421777
200|2000|289264.91
40919.88
702126.89|0.69810316
100 |2000| 294631.58
4387.54
760441.45|0.71392655
80|2000|296097.75
-4799.49
775314.42|0.71572473
50|2000|298632.98
-20172.41
800345.779|0.71668505
10|2000|302789.07
-44322.71
839970.57|0.71288439
1|2000|303871.86
-50448.17
850070.21|0.71086923
0.1|2000|303983.51
-51076.45
851107.12|0.71063822
0.05|2000|303989.73
-51111.44
851164.87|0.71062523

我将 λ \lambda 的取值和 R 2 R^2 的关系画了一张图,如下

这里写图片描述

猜你喜欢

转载自blog.csdn.net/Source_00/article/details/81108111