十一、机器学习系统设计

1 首先要做什么

首先要选择合适的特征。

2 错误分析

构建一个学习算法的推荐方法:

  1. 从一个简单算法开始,实现该算法并用交叉验证集测试这个算法;
  2. 绘制学习曲线,决定是增加数据还是增加特征或其他;
  3. 进行误差人工分析:人工检查交叉验证集中,算法中产生预测误差的实例看看这些实例是否有系统化趋势。

3 类偏斜的误差度量

以恶性肿瘤的估计为例,恶性肿瘤的发病率为0.5%,如果预测所有的肿瘤都为良性的,误差只有0.5%,但是构建
一个神经网络进行预测,可能有1%误差,这是误差不能作为评判算法效果的依据。

因此引入查准率和查全率。

定义混淆矩阵:

查准率Precision:

查准率高,表明预测为恶性肿瘤病人里实际为恶性肿瘤病人的百分比高。

查全率recall:

查全率高,表明预测为恶性肿瘤病人里被预测出的实际为恶性肿瘤的病人百分比高。

4 查全率和查准率之间的权衡

使用线性回归预测恶性肿瘤,当输出y∈[0,1],若我们需要高查准率,采用比0.5更大的阈值如0.7,0.9,这样会减少错误预测病人为恶性肿瘤的情况,但是此时查全率会低。

如果我们需要高查全率,采用比0.5更小的阈值如0.3,这样会让所有可能为恶性肿瘤的病人进一步得到检查。此时查准率低。

判断算法是否为好算法采用 F1 Score:

F1越大,算法查全率和查准率都相对较高。

猜你喜欢

转载自www.cnblogs.com/cold-city/p/10006643.html
今日推荐