1. Adam 学习率0.00035真香;
2. SGD + Momentum 学习率应当找到合适区间,一般远大于Adam;
3. 提前终止,防止过拟合;
4. Ensemble可以显著提高模型性能,对两个模型而言,适当增加性能较好的模型权重可能会取得更好的结果;
1. Adam 学习率0.00035真香;
2. SGD + Momentum 学习率应当找到合适区间,一般远大于Adam;
3. 提前终止,防止过拟合;
4. Ensemble可以显著提高模型性能,对两个模型而言,适当增加性能较好的模型权重可能会取得更好的结果;