1. 机器学习策略

如何改善模型的性能?

收集更多数据
训练集多样性（如，识别猫，收集各种姿势的猫，以及反例）
训练的时间更长一些
尝试不同的优化算法（如 Adam优化）
尝试规模更大 / 更小的神经网络
尝试 DropOut 正则化
尝试添加 L2 正则化
设计新的网络结构（修改激活函数，隐藏单元数目）

以上方法都可以改变模型的性能，但是需要判断哪些是有效的，哪些是可以放心舍弃的。

2. 正交化 Orthogonalization

各个调整的变量之间最好没有耦合关系
在这里插入图片描述
定位出模型的性能瓶颈在哪个环节，利用对应的方法去改善。

early stopping，就是一个不那么正交化的方法
过早停止，影响训练集准确率，同时它又可以改善在开发集的准确率
它同时影响两件事情，尽量用其他的正交化控制方法

3. 单一数字评估指标

在这里插入图片描述
准确率、召回率、F1值(前两者的平均)：
$1=\frac{2}{\frac{1}{\text { precision }}+\frac{1}{\text { recall }}}=2 * \frac{\text { precison } * \text { recall }}{\text { precison }+\text { recall }}=\frac{T P}{T P+\frac{F N+F P}{2}}$

有一个单实数评估指标可以提高你做出决策的效率。

4. 满足和优化指标

在这里插入图片描述
考虑 N 个指标，有时候选择其中一个做为优化指标是合理的。

尽量优化那个指标，然后剩下 N-1 个指标都是满足指标，意味着只要它们达到一定阈值，你不再关心指标在阈值内的大小。

5. 训练/开发/测试集划分

在这里插入图片描述
举例：前4个区域的数据作为开发集，后4个作为测试集

非常不好，他们很可能来自不同的分布；
应该随机打乱所有的数据，重新划分。

6. 开发集和测试集的大小

在这里插入图片描述

7. 什么时候该改变开发/测试集和指标

在这里插入图片描述
更改测试指标:
$\begin{aligned} &\text { 误差 }: \frac{1}{\sum w^{(i)}} \sum_{i=1}^{m_{\text {dev }}} w^{(i)} \mathcal{L}\left\{\left(\hat{y}^{(i)} \neq y^{(i)}\right)\right\} \\\\ &w^{(i)}=\left\{\begin{array}{cl} 1 & \text { if } x^{(i)} \text { 是非色情图片 } \\ 10 & \text { if } x^{(i)} \text { 是色情图片 } \end{array}\right. \end{aligned}$
以上方法，你必须自己过一遍数据，把色情图片标记出来。