Prefacio a la Dobby Gaming Machine: Introducción a la terminología

Aunque este es Bandit Algorithmsel término nota que estoy viendo , estos términos aún se aplican al aprendizaje por refuerzo.

Recompensa

Una medida cuantitativa del éxito. En el campo de los negocios, el rendimiento final es el beneficio, pero generalmente podemos tratar los indicadores más simples, como la tasa de clics en los anuncios o la tasa de registro de nuevos usuarios, como la devolución. Lo importante es que ( A) tiene una escala cuantitativa clara ( B) Cuantas más recompensas, mejor.

Brazo

¿Qué significa que tenemos opciones? ¿Qué acciones podemos tomar?

Bandido

BanditSi Armcolección. Cuando tiene muchas opciones, las llamamos Multiarmed Bandit. " Multiarmed Bandit" Es un modelo matemático que puede usar para inferir cómo toma decisiones cuando tiene muchas acciones que tomar e información incompleta sobre las recompensas que recibirá después de tomar estas acciones.

Juego de prueba

Cuando se trata de un banditproblema, generalmente lo tiene pull armmuchas veces, y cuando lo hace cada pullvez, lo llamamos play.

Horizonte

HorizonIndica trialscuántas veces puedes jugar antes de que termine el juego ( The number of trials left is called the horizon.). HorizonLa longitud utilizada suele strategyser diferente. Porque puedes usar esquemas más radicales para aumentar la exploración.

Explotación

Un Multiarmed Banditalgoritmo para resolver el problema, más considerando playla situación anterior .

Exploración

Un Multiarmed Banditalgoritmo para resolver problemas, más consideración de explorar playsituaciones sin precedentes .

Explorar / explotar dilema

Cualquier sistema de aprendizaje debe comprometer la exploración y el uso. No existe una solución definitiva para este problema, pero los algoritmos descritos en este libro proporcionan estrategias útiles para resolver objetivos conflictivos de exploración y desarrollo.

Recocido

Un algoritmo para resolver el Problema de Bandidos Multiarmedio se recupera (退火) si explora menos con el tiempo.

Temperatura

explorationParámetros controlados .

Algoritmos de transmisión

Un algoritmo es un algoritmo de transmisión ( streaming algorithm), que procesa datos un bloque a la vez. Esto contrasta con el algoritmo por lotes ( batch processing algorithms), que requiere acceso a todos los datos para procesarlo.

Aprender en línea

Online LearningEl algoritmo no solo puede procesar un dato a la vez, sino que también proporciona resultados temporales de su análisis después de ver cada dato.

Aprendizaje activo

Un algoritmo es un algoritmo de aprendizaje activo, si puede decidir el siguiente dato que quiere ver para aprender de manera más efectiva. La mayoría de los algoritmos tradicionales de aprendizaje automático no están activos: aceptan pasivamente los datos que les proporcionamos sin decirnos qué datos debemos recopilar a continuación.

Bernoulli

Un sistema de Bernoulli genera un 1 con probabilidad $pags$ y a 0 con probabilidad $1 - p$ .

Nombre de mi cuenta pública de WeChat : Aprendizaje inteligente avanzado de toma de decisiones profunda
Identificación de la
cuenta pública de WeChat: MultiAgent1024 introducción de cuenta pública : ¡principalmente investigación de aprendizaje profundo, aprendizaje de refuerzo, juegos de máquina y otro contenido relacionado! ¡Esperamos su atención, bienvenidos a aprender e intercambiar progreso juntos!

Sr. Xiao He, experto en blogs.

发布了185 篇原创文章 · 获赞 168 · 访问量 21万+

私信关注