16 大规模机器学习
16.1 随机梯度下降-每次只取一个样本进行梯度下降
作出cost函数图像
出现平缓,则需改变特征或改变学习率
16.2 Mini-Batch 梯度下降
每次选取一定数量的样本进行梯度下降,当使用向量化方法并行计算时速度比随机梯度下降更快
17 机器学习中的重要思想
17.1 流水线-OCR
需要文字检测 文字分割 文字识别三大部分
17.1.1 文字检测/行人检测
运用滑动窗口的算法,每次滑动固定步长,识别窗口内的图像
17.1.2 文字分割
训练分类器识别该分割的区域和不该分割的区域,再将扣出的图样进行滑动窗口分割
17.2 获取大量数据
- 首先用学习曲线检验,确保有低偏差,高方差的分类器,保证大量训练样本可提升分类器
- 通过人工合成获取大量样本、通过对样本应用失真操作或自己标记数据
17.3 上限分析
通过明确工作流后,人工改进某一模块,判断改进后系统分类正确率提高了多少作为各个模块的上限,完成各个模块上限的分析后,判断改进哪一模块的收益最大,就把工作重点放于该模块