CS229学习笔记(1)

线性回归

我们在上一节房屋售价数据集的基础上,增添房间数量这一特征变量,如下图所示:

image_1c5nbop6e9rft5d1gctfsf17ll9.png-34.8kB

因此,特征变量 x 变为了维度为2的向量,记作 xR2 ,其中 x(i)1 表示数据集中第i个房屋的房屋面积,则 x(i)2 表示数据集中第i个房屋的房间数量。

对于此监督学习问题,若我们采用线性回归模型,其假设函数 h(x) 为:

h(x)=θ0+θ1x1+θ2x2=i=0mθixi=hθ(x)

其中, hθ(x) 表示以 θ 为参数。为了便于向量化,我们令 x0=0 ,则上式可改写为:

hθ(x)=θTx

从上式可知, θ 为未知变量。那么我们该如何根据数据集计算出 θ 的值呢?我们不妨回想一下假设函数 hθ(x) 的定义。从上一小节可知,假设函数 hθ(x) 是我们从给定数据集中学习得到的,其输出的值与数据集中的 y 越相近越好。因此,我们可以定义如下的代价函数(Cost Function):

J(θ)=12i=1m(hθ(x(i))yi)2

当代价函数 J(θ) 最小时,其参数 θ 的值为我们所要的,从而得到了拟合训练集的最佳参数。

猜你喜欢

转载自blog.csdn.net/u013058162/article/details/79279592