-------------------------------------------------------------------------------------------------------

【李宏毅深度强化学习】视频地址：https://www.bilibili.com/video/av10590361?p=3

课件地址：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

-------------------------------------------------------------------------------------------------------

Introduction

在现实中，有很多事情可以应用regression来求解。比如上图的情况。

计算神奇宝贝CP值为例子

具体以一个例子，这个例子是预测神奇宝贝的CP值（战力值）。这里函数的输入就是神奇宝贝进化前的信息，输出就是这只神奇宝贝进化后的CP值。

为了得到一个能实现以上功能的函数，需要进行以下3步：

找一个model（function set）
评估function set里面的function
挑选出最优的function

在这个例子中，可以假设这个function长这样， $y = b + w\cdot x_{cp}$ 。其中w、b都是参数，代入不同的数字会产生无穷个不同的函数 $f_1$ ， $f_2$ ， $f_3$ ……这些function的集合就是model（function set）。为了找到合适的function（ $f_3$ 就是错误的，不可能进化后CP值减少），需要通过让模型进行训练才能得到最优的function。

这里的model是一个linear model，形如 $y = b +\sum w_ix_i$ 的也是。 $x_i$ 称为feature， $w_i$ 称为weight，b称为bias。

为了能让模型有data可以训练，需要抓来一些神奇宝贝。 $x^i$ 代表不同的神奇宝贝， $y^i$ \hat代表进化后的实际的CP值。

为了从function set里选出最优的function，需要定义一个Loss function $L(f)$ ，这个Loss function的输入是function set的某一个function，输出这个function有多差。 $L(f)$ 输出值越大，说明这个function不好， $L(f)$ 输出值越小，说明这个function好，其中， $y^i$ \hat代表真实的CP值， $f(x^n_{cp})$ 代表预测出来的CP值，相减后去平方，然后求和（这里假设10只神奇宝贝的data）。

由于函数 f 中包含参数w，b，所以 $L(f)$ 也可以表示为 $L(w,b)$ 。

把Loss function的w，b制成图，每个点代表一个function，如图所示。假设蓝色区域是function比较好的，红色区域是function比较不好的。

定好Loss function后我们可以衡量每个function的好坏，接下来第3步就要找出哪个function是最好的。

在上一步有了Loss function之后，通过Gradient Descent，不断更新参数w、b，最终找到一个loss值相对较低的function。（Gradient Descent会找到一个局部最优的解，虽然可能不是全局最优，但也还行）

刚才讲到gradient descent，这里具体看一下。为了找到一个比较好的参数，会进行以下的步骤：

随机初始化一个参数 $w_0$
计算 $w=w_0$ 处对 $L(w)$ 的偏微分（切线斜率）。如果斜率为负，则增大w的数值。如果斜率为正，则减小w的数值。
将参数 $w_0$ 减去 $\eta$ 乘上此处的切线斜率，就得出新的参数 $w_1$ 。（ $\eta$ 代表学习率（learning rate），代表参数w每次向左右“跨的步”有多大）