3.12 Resumen - Aprendizaje profundo Segunda lección "Mejora de las redes neuronales profundas" - Profesor Stanford Wu Enda

Resumen

Ejercicios

Pregunta 61

Si busca el mejor valor de parámetro entre una gran cantidad de hiperparámetros, debe intentar buscar en la cuadrícula en lugar de usar valores aleatorios, para poder buscar de manera más sistemática en lugar de confiar en la suerte. ¿Es correcta esta oración?

A. Sí B. No

Pregunta 62

Si cada hiperparámetro no está configurado correctamente, tendrá un gran impacto negativo en el entrenamiento. Por lo tanto, todos los hiperparámetros deben ajustarse. ¿Es esto correcto?

A. Sí B. No

Pregunta 63

Durante la búsqueda de hiperparámetros, si trata de cuidar solo un modelo (usando la estrategia de panda) o entrenando una gran cantidad de modelos juntos (estrategia de caviar) depende en gran medida de:

A. Ya sea para usar la optimización por lotes (lote) u optimización de mini lotes (optimización de mini lotes)

B. La existencia de mínimos locales (puntos de silla) en las redes neuronales.

C. Dentro de su capacidad, cuánta potencia informática puede tener (Nota de Blogger: la diferencia entre computadoras de alto rendimiento y computadoras de bajo rendimiento)

D. El número de hiperparámetros que deben ajustarse.

Pregunta 64

Si piensas b \beta (hiperparámetro de momento) está entre 0.9 y 0.99, entonces, ¿cuál de los siguientes métodos se recomienda b \beta valor para el muestreo?

A.

r = np.random.rand()
beta = r * 0.09 + 0.9

SI.

r = np.random.rand()
beta = 1 - 10 ** ( - r - 1 )

C.

r = np.random.rand()
beta = 1 - 10 ** ( - r + 1 )

RE.

r = np.random.rand()
beta = r * 0.9 + 0.09

Pregunta 65

Encontrar buenos valores de hiperparámetros lleva mucho tiempo, por lo que generalmente debe hacerlo una vez al comienzo del proyecto e intentar encontrar hiperparámetros muy buenos, para no tener que reajustarlos nuevamente. ¿Es esto correcto?

A. Sí B. No

Pregunta 66

En la estandarización por lotes descrita en el video, si se aplica a la primera l l capa, a los que debe estandarizarse?

A. de [ l ] z ^ {[l]}
B. W [ l ] W ^ {[l]}
C. un [ l ] a ^ {[l]}
D. si [ l ] b ^ {[l]}

Pregunta 67

En fórmulas estandarizadas de norte el r metro ( yo ) = de ( yo ) - m p 2 + Y z ^ {(i)} _ {norma} = \ frac {z ^ {(i)} - \ mu} {\ sqrt {\ sigma ^ 2 + \ epsilon}} , ¿Por qué usar epsilon (ϵ)?

A. Para una estandarización más precisa

B. Para evitar la división por cero

C. Acelerar la convergencia.

D. prevenir m \ mu demasiado pequeño

Pregunta 68

Sobre la estandarización de lotes c \gama y b \beta ¿Cuál de las siguientes afirmaciones de es correcta?

A. Para cada capa, hay un valor global c R \ gamma \ in \ R y un valor global b R \ beta \ in \ R aplica a todas las unidades ocultas en esta capa.

SI. c \gama y b \beta es el hiperparámetro del algoritmo, lo ajustamos mediante muestreo aleatorio

C. Determinan las variables lineales de una capa dada de [ l ] z ^ {[l]} Media y varianza

D. El mejor valor es c = p 2 + ϵ ,   β = μ \ gamma = \ sqrt {\ sigma ^ 2 + \ epsilon}, \ \ beta = \ us

E. Pueden usar Adam, descenso de gradiente de impulso o RMSprop, no solo descenso de gradiente para aprender

Pregunta 69

Después de entrenar una red neuronal con normalización por lotes, al evaluar la red neuronal con nuevas muestras, debe:

R. Si implementa la estandarización de lotes en un mini lote de 256 ejemplos, entonces si desea evaluar en un ejemplo de prueba, debe repetir este ejemplo 256 veces para que pueda usar el mismo tamaño que durante el entrenamiento mini-lote para hacer predicciones.

B. Use el último mini lote μ \ mu y σ 2 \ sigma ^ 2 valores para realizar la estandarización requerida

C. Saltar μ \ mu y σ 2 \ sigma ^ 2 Paso de estandarización de valores, porque un ejemplo no requiere estandarización

D. Realizar la estandarización requerida utilizando el promedio ponderado exponencial obtenido durante el entrenamiento μ \ mu y σ 2 \ sigma ^ 2

Pregunta 70

¿Cuál de estas afirmaciones sobre el marco de programación de aprendizaje profundo es correcta? (Seleccione todos los elementos correctos)

R. Incluso si un proyecto es actualmente de código abierto, una buena gestión del proyecto ayuda a garantizar que permanezca abierto incluso a largo plazo, en lugar de simplemente cerrarse o modificarse para una empresa.

B. A través del marco de programación, puede escribir algoritmos de aprendizaje profundo utilizando menos código que los lenguajes de bajo nivel (como Python).

C. La operación del marco de programación de aprendizaje profundo requiere máquinas basadas en la nube.

Respuestas a las preguntas 61-70

61.B 62.B 63.C 64.B 65.B 66.A 67.B 68.CE 69.D 70.AB

242 artículos originales publicados · Me gusta9 · Visitantes más de 10,000

Supongo que te gusta

Origin blog.csdn.net/weixin_36815313/article/details/105457375
Recomendado
Clasificación