Andrew Ng machine learning univariate linear regression (a): univariate linear regression model indicated that intuitive understanding of the cost function, cost function (handwritten notes attached)

Andrew Ng machine learning section list
Here Insert Picture Description

Univariate linear regression (Linear Regression with One Variable)

2.1 model representation

Our first learning algorithm is a linear regression algorithm. In this video, you will see this overview of the algorithm, more importantly, you will understand the complete process supervised learning process.

让我们通过一个例子来开始:这个例子是预测住房价格的,我们要使用一个数据集,数据集包含俄勒冈州波特兰市的住房价格。在这里,我要根据不同房屋尺寸所售出的价格,画出我的数据集。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你可以告诉你的朋友,他能以大约220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子。
Here Insert Picture Description
它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。回归一词指的是,我们根据之前的数据预测出一个准确的输出值,对于这个例子就是价格,同时,还有另一种最常见的监督学习方式,叫做分类问题,当我们想要预测离散的输出值,例如,我们正在寻找癌症肿瘤,并想要确定肿瘤是良性的还是恶性的,这就是0/1离散输出的问题。更进一步来说,在监督学习中我们有一个数据集,这个数据集被称训练集。
我将在整个课程中用小写的m来表示训练样本的数目。
以之前的房屋交易问题为例,假使我们回归问题的训练集(Training Set)如下表所示:
Here Insert Picture Description
我们将要用来描述这个回归问题的标记如下:
m 代表训练集中实例的数量
x 代表特征/输入变量
y 代表目标变量/输出变量
(x,y) 代表训练集中的实例
(x((i)),y((i))) 代表第i 个观察实例
h 代表学习算法的解决方案或函数也称为假设(hypothesis)
Here Insert Picture Description
这就是一个监督学习算法的工作方式,我们可以看到这里有我们的训练集里房屋价格 我们把它喂给我们的学习算法,学习算法的工作了,然后输出一个函数,通常表示为小写 h 表示。h 代表hypothesis(假设),h表示一个函数,输入是房屋尺寸大小,就像你朋友想出售的房屋,因此 h 根据输入的 x值来得出 y 值,y 值对应房子的价格 因此,h 是一个从x 到 y 的函数映射。
我将选择最初的使用规则h代表hypothesis,因而,要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设h,然后将我们要预测的房屋的尺寸作为输入变量输入给h,预测出该房屋的交易价格作为输出变量输出为结果。那么,对于我们的房价预测问题,我们该如何表达 h?
一种可能的表达方式为:h_θ (x)=θ_0+θ_1 x,因为只含有一个特征/输入变量,因此这样的问题叫作单变量线性回归问题。
Here Insert Picture Description

2.2 代价函数

参考视频: 2 - 2 - Cost Function (8 min).mkv
在这段视频中我们将定义代价函数的概念,这有助于我们弄清楚如何把最有可能的直线与我们的数据相拟合。如图:
Here Insert Picture Description
在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如 m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式:h_θ (x)=θ_0+θ_1 x。
接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的参数(parameters)θ_0 和 θ_1,在房价问题这个例子中便是直线的斜率和在y 轴上的截距。
我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差(modeling error)。
Here Insert Picture Description
我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。 即使得代价函数 J(θ_0,θ_1 )=1/2m ∑_(i=1)^m▒(h_θ (x((i)))-y((i)) )^2 最小。
我们绘制一个等高线图,三个坐标分别为θ_0和θ_1 和J(θ_0,θ_1):
Here Insert Picture Description
则可以看出在三维空间中存在一个使得J(θ_0,θ_1)最小的点。
代价函数也被称作平方误差函数,有时也被称为平方误差代价函数。我们之所以要求出误差的平方和,是因为误差平方代价函数,对于大多数问题,特别是回归问题,都是一个合理的选择。还有其他的代价函数也能很好地发挥作用,但是平方误差代价函数可能是解决回归问题最常用的手段了。
在后续课程中,我们还会谈论其他的代价函数,但我们刚刚讲的选择是对于大多数线性回归问题非常合理的。
也许这个函数J(θ_0,θ_1)有点抽象,可能你仍然不知道它的内涵,在接下来的几个视频里,我们要更进一步解释代价函数J的工作原理,并尝试更直观地解释它在计算什么,以及我们使用它的目的。
Here Insert Picture Description
Here Insert Picture Description

2.3 代价函数的直观理解I

在上一个视频中,我们给了代价函数一个数学上的定义。在这个视频里,让我们通过一些例子来获取一些直观的感受,看看代价函数到底是在干什么。
Here Insert Picture Description
Here Insert Picture Description
Here Insert Picture Description

2.4 代价函数的直观理解II

这节课中,我们将更深入地学习代价函数的作用,这段视频的内容假设你已经认识等高线图,如果你对等高线图不太熟悉的话,这段视频中的某些内容你可能会听不懂,但不要紧,如果你跳过这段视频的话,也没什么关系,不听这节课对后续课程理解影响不大。
Here Insert Picture Description
代价函数的样子,等高线图,则可以看出在三维空间中存在一个使得J(θ_0,θ_1)最小的点。
Here Insert Picture Description
通过这些图形,我希望你能更好地理解这些代价函数J所表达的值是什么样的,它们对应的假设是什么样的,以及什么样的假设对应的点,更接近于代价函数J的最小值。
当然,我们真正需要的是一种有效的算法,能够自动地找出这些使代价函数J取最小值的参数θ_0和θ_1来。
我们也不希望编个程序把这些点画出来,然后人工的方法来读出这些点的数值,这很明显不是一个好办法。我们会遇到更复杂、更高维度、更多参数的情况,而这些情况是很难画出图的,因此更无法将其可视化,因此我们真正需要的是编写程序来找出这些最小化代价函数的θ_0和θ_1的值,在下一节视频中,我们将介绍一种算法,能够自动地找出能使代价函数J最小化的参数θ_0和θ_1的值。
Here Insert Picture Description
Here Insert Picture Description
Here Insert Picture Description

发布了568 篇原创文章 · 获赞 758 · 访问量 9万+

Guess you like

Origin blog.csdn.net/qq_35456045/article/details/104593602