构建训练集的矩阵时,使用以下形式:
X=⎝⎜⎜⎛⋮x(1)⋮⋮x(2)⋮⋯⋮x(m)⋮⎠⎟⎟⎞X∈Rn×m
Y=(y(1)y(2)⋯y(m))Y∈R1×m
逻辑回归(Logistic Regression)
Given X,
y^ = P(y = 1 | X) 0
≤
y^
≤ 1
即预测值
y^ 为:X条件下, y = 1的概率。
参数说明(Parameters specification)
输入的特征向量(Feature Vector)X: X
∈
Rnx ,
nx为特征的数量;
训练标签(Training Label)Y: Y
∈ {0, 1} ;
权重(Weights)w: w
∈
Rnx ;
阈值??(Threshold)b: b
∈
R ;
输出(Output)
y^:
y^ =
σ(
wTx + b) ;
S型函数(Sigmoid Function):
S =
σ(
wTx + b) =
σ(
z) =
1+e−z1;
参数向量(Parameter Vector):
Θ =
⎝⎜⎜⎜⎜⎜⎛θ0θ1θ2⋮θm⎠⎟⎟⎟⎟⎟⎞
损失函数(Loss/Error Function)
l(y^(i),y(i))=21(y^(i)−y(i))2
一般情况下,我们使用平方误差(Squared Error)来衡量损失函数,但是一个非凸函数,运行梯度下降算法时,很大可能性取到的是局部最优解,而我们想要的是全局最优解,因此一般情况下不使用这种损失函数。
一般使用这种形式的损失函数:
l(y^(i),y(i))=−[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]
if
y^(i)==1:l(y^(i),y(i))=−y(i)log(y^(i))
if
y^(i)==0:l(y^(i),y(i))=−(1−y(i))log(1−y^(i))
代价函数(Cost Function)
J(w,b)=m1∑i=1ml(y^(i),y(i))
=−m1∑i=1m[y(i)log(y^(i))+(1−y(i))log(1−y^(i))]
对比Cost Function与Loss/Error Function
Loss/Error Function衡量单个训练样本上的表现;Cost Function是Loss Function在整个训练集(Training set)上的平均值。