1. Adam aprendió el verdadero ritmo de 0,00035 incienso;
tasa de aprendizaje + Momentum 2. SGD debe encontrar un intervalo adecuado, por lo general mucho más grande que Adán;
3. La terminación anticipada, para evitar un exceso de ajuste;
4. Conjunto puede mejorar significativamente el rendimiento del modelo, para ambos modelos, capaz de potenciar la mayor durabilidad de los modelos de peso adecuado pueden obtener mejores resultados;