Resumen de preguntas de la entrevista para "Aprendizaje por refuerzo profundo"

Fuente original:
[1] Tencent Cloud. Resumen de preguntas de la
entrevista "Aprendizaje por refuerzo profundo" [2] Algunas preguntas de la entrevista de aprendizaje por refuerzo encontradas por el aprendizaje por refuerzo [3] Zhihu. Preguntas de la entrevista por aprendizaje por refuerzo

Informe de aprendizaje por refuerzo profundo

Fuente: Blog (AemaH, Su Ke)

Editar: DeepRL

Sin saberlo, la temporada de búsqueda de empleo ha estado ocurriendo durante mucho tiempo. Se puede decir que la contratación de puestos de algoritmo es muy popular, pero las preguntas de la entrevista para el aprendizaje intensivo son relativamente pocas. Este artículo ha recopilado alrededor de 50 preguntas para su test., ¡También bienvenido a resumir y aportar respuestas!

  1. ¿Qué es el aprendizaje por refuerzo?

  2. ¿Cuál es la diferencia entre el aprendizaje por refuerzo, el aprendizaje supervisado y el aprendizaje no supervisado?

  3. ¿Para qué tipo de problema es adecuado el aprendizaje por refuerzo?

  4. ¿Cuál es la función de pérdida del aprendizaje por refuerzo? ¿Cuál es la relación con la función de pérdida del aprendizaje profundo?

  5. ¿Qué es POMDP? ¿Qué es el proceso de Markov? ¿Qué es el proceso de decisión de Markov? ¿Cuál es la naturaleza del "Markov" en él?

  6. ¿Cuál es la expresión matemática específica de la ecuación de Bellman?

  7. ¿Por qué la función de valor óptimo y la estrategia óptima son equivalentes?

  8. ¿Cuál es la diferencia entre iteración de valor e iteración de estrategia?

  9. ¿Qué pasa si Markovianity no está satisfecho? ¿Cuál es la relación entre el estado actual y muchos, muchos estados anteriores?

  10. ¿Cuáles son los métodos para resolver el proceso de decisión de Markov? ¿Qué método existe para un modelo? ¿Qué es la programación dinámica?

  11. Describa brevemente el algoritmo de programación dinámica (DP).

  12. Describa brevemente el algoritmo de la función de estimación de Monte Carlo (MC).

  13. Describa brevemente el algoritmo de diferencia de tiempo (TD).

  14. Describa brevemente la comparación entre programación dinámica, Monte Carlo y diferencia horaria (puntos comunes y diferentes)

  15. ¿Son MC y TD respectivamente estimaciones insesgadas?

  16. MC o TD, cuya varianza es mayor y por qué?

  17. Describa brevemente la diferencia entre dentro y fuera de la política

  18. Describa brevemente Q-Learning y escriba su fórmula de actualización de Q (s, a). ¿Está dentro o fuera de la política, por qué?

  19. Escriba la fórmula para actualizar la función de valor actual con la función de valor del enésimo paso (es decir, 1 paso, 2 pasos, n pasos). Cuando el valor de n aumenta, la expectativa y la varianza aumentan y disminuyen respectivamente.

  20. Método TD (λ): cuando λ = 0, ¿qué método es realmente equivalente, λ = 1?

  21. Escriba las fórmulas para actualizar la función de valor de los tres métodos de Monte Carlo, TD y TD (λ)?

  22. ¿Cuál es la diferencia entre las políticas basadas en valores y las basadas en políticas?

  23. ¿Cuáles son los dos trucos clave de DQN?

  24. Explique el papel de la red de destino y la repetición de la experiencia.

  25. ¿Derivar manualmente el proceso de gradiente de estrategia?

  26. Describe las características de las estrategias aleatorias y las estrategias deterministas.

  27. Sin romper la correlación de datos, ¿por qué el efecto de entrenamiento de la red neuronal no es bueno?

  28. Dibuja el diagrama de flujo de DQN jugando Flappy Bird. En este juego, ¿qué es el estado y cómo se transfiere el estado? ¿Cómo está diseñada la función de recompensa? ¿Existe un problema de retraso en la recompensa?

  29. ¿Cuáles son las variantes de DQN? ¿Qué tipo de recompensas de estatus se introducen?

  30. ¿Describe brevemente el principio de doble DQN?

  31. ¿Cómo determinar la línea de base en el método de gradiente de estrategia?

  32. ¿Qué es DDPG y dibujar el diagrama de estructura del marco DDPG?

  33. ¿Cuál es la diferencia entre actor-crítico?

  34. ¿Cuál es el papel del crítico en el marco actor-crítico?

  35. DDPG está dentro o fuera de la política, ¿por qué?

  36. ¿Ha entendido el algoritmo D4PG? Describe brevemente el proceso

  37. ¿Describe brevemente el algoritmo A3C? A3C está dentro o fuera de la política, ¿por qué?

  38. ¿Cómo se actualiza el algoritmo A3C de forma asincrónica? ¿Puede explicar la diferencia entre GA3C y A3C?

  39. Describa brevemente la función de ventaja de A3C.

  40. ¿Qué es el muestreo por importancia?

  41. ¿Por qué TRPO puede garantizar que la función de retorno de la nueva estrategia siga siendo monótona?

  42. Cómo TRPO resuelve el problema de la tasa de aprendizaje optimizando cada punto local para encontrar el tamaño de paso óptimo que hace que la función de pérdida no aumente;

  43. ¿Cómo entender el uso de la divergencia KL promedio en lugar de la divergencia KL máxima?

  44. ¿Describe brevemente el algoritmo PPO? ¿Cuál es la relación con el algoritmo TRPO?

  45. Describa brevemente la relación entre DPPO y PPO.

  46. ¿Cómo se puede utilizar el aprendizaje por refuerzo en los sistemas de recomendación?

  47. ¿Cómo diseñar la función de recompensa en el escenario de recomendación?

  48. ¿Cuál es el estado en la escena y cómo se transfiere el estado actual al siguiente estado?

  49. ¿Cómo modelar los escenarios de conducción autónoma y robots en problemas de aprendizaje por refuerzo? ¿Qué variables del escenario real corresponden a cada elemento del MDP?

  50. El aprendizaje por refuerzo requiere una gran cantidad de datos ¿Cómo generar o recopilar estos datos?

  51. ¿Has jugado alguna vez a un juego de Torcs con cierto algoritmo DRL? ¿Cómo resolverlo?

  52. ¿Has aprendido a dar forma a las recompensas?

Este artículo también sincroniza el tema en Github, ¡bienvenido a solicitar la mejor respuesta! Al final del artículo, agradeceremos unánimemente a todos los colaboradores y daremos la bienvenida a todos para discutir en el grupo.

https://github.com/NeuronDance/DeepRL/blob/master/DRL-Interviews/drl-interview.md

Agradecimientos: Este artículo (los dos enlaces siguientes) está compilado con referencia al blog de AemaH y Su Ke. ¡Gracias aquí!

https://zhuanlan.zhihu.com/p/33133828

https://aemah.github.io/2018/11/07/RL_interview/

Laboratorio de aprendizaje por refuerzo profundo

Algoritmos, frameworks, materiales, información de vanguardia, etc.

Repositorio de GitHub

https://github.com/NeuronDance/DeepRL

Supongo que te gusta

Origin blog.csdn.net/SL_World/article/details/112631061
Recomendado
Clasificación