Aunque este es Bandit Algorithms
el término nota que estoy viendo , estos términos aún se aplican al aprendizaje por refuerzo.
Recompensa
Una medida cuantitativa del éxito. En el campo de los negocios, el rendimiento final es el beneficio, pero generalmente podemos tratar los indicadores más simples, como la tasa de clics en los anuncios o la tasa de registro de nuevos usuarios, como la devolución. Lo importante es que ( A
) tiene una escala cuantitativa clara ( B
) Cuantas más recompensas, mejor.
Brazo
¿Qué significa que tenemos opciones? ¿Qué acciones podemos tomar?
Bandido
Bandit
Si Arm
colección. Cuando tiene muchas opciones, las llamamos Multiarmed Bandit
. " Multiarmed Bandit
" Es un modelo matemático que puede usar para inferir cómo toma decisiones cuando tiene muchas acciones que tomar e información incompleta sobre las recompensas que recibirá después de tomar estas acciones.
Juego de prueba
Cuando se trata de un bandit
problema, generalmente lo tiene pull arm
muchas veces, y cuando lo hace cada pull
vez, lo llamamos play
.
Horizonte
Horizon
Indica trials
cuántas veces puedes jugar antes de que termine el juego ( The number of trials left is called the horizon.
). Horizon
La longitud utilizada suele strategy
ser diferente. Porque puedes usar esquemas más radicales para aumentar la exploración.
Explotación
Un Multiarmed Bandit
algoritmo para resolver el problema, más considerando play
la situación anterior .
Exploración
Un Multiarmed Bandit
algoritmo para resolver problemas, más consideración de explorar play
situaciones sin precedentes .
Explorar / explotar dilema
Cualquier sistema de aprendizaje debe comprometer la exploración y el uso. No existe una solución definitiva para este problema, pero los algoritmos descritos en este libro proporcionan estrategias útiles para resolver objetivos conflictivos de exploración y desarrollo.
Recocido
Un algoritmo para resolver el Problema de Bandidos Multiarmedio se recupera (退火) si explora menos con el tiempo.
Temperatura
exploration
Parámetros controlados .
Algoritmos de transmisión
Un algoritmo es un algoritmo de transmisión ( streaming algorithm
), que procesa datos un bloque a la vez. Esto contrasta con el algoritmo por lotes ( batch processing algorithms
), que requiere acceso a todos los datos para procesarlo.
Aprender en línea
Online Learning
El algoritmo no solo puede procesar un dato a la vez, sino que también proporciona resultados temporales de su análisis después de ver cada dato.
Aprendizaje activo
Un algoritmo es un algoritmo de aprendizaje activo, si puede decidir el siguiente dato que quiere ver para aprender de manera más efectiva. La mayoría de los algoritmos tradicionales de aprendizaje automático no están activos: aceptan pasivamente los datos que les proporcionamos sin decirnos qué datos debemos recopilar a continuación.
Bernoulli
Un sistema de Bernoulli genera un 1 con probabilidad y a 0 con probabilidad .
Nombre de mi cuenta pública de WeChat : Aprendizaje inteligente avanzado de toma de decisiones profunda
Identificación de la
cuenta pública de WeChat: MultiAgent1024 introducción de cuenta pública : ¡principalmente investigación de aprendizaje profundo, aprendizaje de refuerzo, juegos de máquina y otro contenido relacionado! ¡Esperamos su atención, bienvenidos a aprender e intercambiar progreso juntos!