- 结构化数据:
[x1,x2,...,xn,y]
的类型
- 非结构化数据:原始音频、图像、文本等
神经网络(深度学习)让我们的计算机比n年前更好地解释非结构化数据。
RNN用于一维序列数据。(音频为一维时间序列)
逻辑回归
hθ(x)=g(z)=11+e−x
其求的结果是类别为1的概率
p(y=1|x)
,将结果与
sigmoid(x=0)=0.5
阈值作比较,大于则为正类。若对正分类要求较为严格,可将阈值上调(如0.7)。
wTx=0
就是模型的分类界面。
交叉熵损失函数
J(θ)=−1m∑i=1m[y(i)lnhθ(x(i))+(1−y(i))ln(1−hθ(x(i)))]
其之所以可为损失函数,是由于当
y(i)=1
时,若
hθ(x(i))→1
,有
Jθ→0
;当
y(i)=0
时,若
【1−hθ(x(i))】→1
,有
Jθ→0
。即让
hθ(x(i))与y(i)
接近,而
y(i)
是固定值0或1。
为什么逻辑回归不采用MSE损失函数而使用交叉熵损失函数?
将
hθ(x)=g(z)=11+e−wTx
带入
−12m∑mi=1(y(i)−hθ(x(i)))2
后,损失函数是非凸的,即存在很多局部最小值。这影响优化算法找全局最优解。而交叉熵损失函数是凸函数,加入正则项后是严格凸函数。因此,逻辑回归应用交叉熵函数寻找全局最优解是凸函数,其初始点可以在任何位置,也可以直接为0。