Diretório de artigos

Uma Breve Introdução ao Aprendizado por Reforço

Uma Breve Introdução ao Aprendizado por Reforço

introduzir

O aprendizado por reforço é um ramo importante do aprendizado de máquina, que é a ciência dos sistemas inteligentes que aprendem por tentativa e erro em um ambiente para atingir objetivos de longo prazo. O objetivo do aprendizado por reforço é aprender, por meio da interação com o ambiente, uma política que maximize a soma de algum sinal de recompensa definido.

termos básicos

Ambiente : O ambiente é onde o agente opera e aprende. Pode ser virtual (como um mapa em um jogo) ou real (como um carro autônomo dirigindo por uma estrada).
Agente (Agent) : Um agente é uma entidade que age e aprende no ambiente. Ele aprende observando o estado do ambiente, realizando ações e recebendo recompensas.
Estado (State) : O estado é uma descrição do ambiente, que pode conter parte ou todas as informações do ambiente.
Ação (Action) : A ação que o agente pode executar em um estado específico.
Recompensa : Uma recompensa é o feedback que um agente recebe do ambiente após realizar uma ação. As recompensas podem ser positivas (como a pontuação do jogo) ou negativas (como bater em uma parede). O objetivo do agente é maximizar a recompensa total por meio do aprendizado.
Política (Policy) : Uma política é uma regra para um agente decidir tomar uma ação específica em um estado específico. As políticas podem ser determinísticas ou aleatórias.

processo de decisão de Markov

O Processo de Decisão de Markov (MDP) é um conceito importante e uma estrutura básica no aprendizado por reforço. É usado para descrever a interação entre um agente e o ambiente e fornece uma maneira de formular estratégias ótimas de tomada de decisão para atingir objetivos em ambientes incertos.

O MDP inclui os seguintes elementos:

State (States): O estado no MDP é a característica básica que descreve o ambiente, e é o ponto de observação do agente em diferentes intervalos de tempo. Em um determinado intervalo de tempo, o ambiente está em um determinado estado.
Ações: Ações são ações que um agente pode executar em um determinado estado. O agente escolhe uma ação para interagir com o ambiente com base no estado atual.
Função de transição de estado (Função de Transição, T): A função de transição de estado descreve a distribuição de probabilidade de que o ambiente fará a transição para o próximo estado dado o estado atual e a ação executada. É expresso em termos de probabilidades condicionais como T(s, a, s'), onde s representa o estado atual, a representa a ação escolhida e s' representa o próximo estado.
Função de Recompensa (Reward Function, R): A função de recompensa dá a recompensa imediata que o agente receberá após um determinado estado e execução de uma ação. As recompensas podem ser imediatas ou atrasadas (recompensas com desconto). A função de recompensa é denotada como R(s, a, s'), onde s representa o estado atual, a representa a ação escolhida e s' representa o próximo estado.

Por meio da função de transição de estado e função de recompensa, o MDP vincula o comportamento do agente com o feedback do ambiente. O objetivo do agente é maximizar a recompensa cumulativa escolhendo a política ótima.

Política: Uma política é o mapeamento de um agente de um estado para uma ação, que define como o agente escolhe uma ação específica em um estado específico. Uma política pode ser determinística, significando que a mesma ação é sempre escolhida para um determinado estado, ou probabilística, ou seja, uma ação diferente é escolhida com certa probabilidade dado um estado. A estratégia é denotada pelo símbolo π, e π(a|s) representa a probabilidade de escolha da ação a no estado s.

Função de valor: A função de valor é usada para avaliar o valor do par estado ou estado-ação, que representa a recompensa cumulativa esperada que o agente pode obter de um determinado par estado ou estado-ação. A função valor pode ser representada pelo símbolo V(s), que representa a recompensa cumulativa esperada que pode ser obtida adotando-se a estratégia π no estado s.

Otimização de Política: No MDP, o objetivo do agente é encontrar uma política ótima que maximize a recompensa cumulativa. A otimização de políticas é a tarefa central do aprendizado por reforço, que pode ser alcançado por diferentes algoritmos e métodos, como iteração de valor, gradiente de política, etc.

O processo de decisão de Markov fornece uma estrutura formal para resolver problemas de tomada de decisão no aprendizado por reforço, permitindo que os agentes aprendam e tomem ações ótimas para atingir objetivos específicos. Em aplicações práticas, o MDP é amplamente utilizado em direção autônoma, estratégia de jogos, gerenciamento de recursos, transações financeiras e outros campos.

equação de Bellman

A equação de Bellman é a equação central no aprendizado por reforço, que nos fornece métodos para calcular funções de valor de estado e funções de valor de ação. A equação de Bellman é derivada com base nas características do processo de decisão de Markov (MDP), que descreve a relação recursiva entre funções de valor, e pode ser utilizada para avaliar a qualidade da estratégia do agente e otimizar a estratégia.

1. Função de valor de estado (função V)

A função de valor de estado (Value Function), denotada como V(s), é a recompensa cumulativa esperada que o agente pode obter sob uma determinada política a partir do estado s. É definido como a recompensa cumulativa esperada de se fazer a apólice π no estado s. Ou seja, V(s) = E[recompensa cumulativa | política π adotada no estado s].

2. Função de valor de ação (função Q)

Função de Valor de Ação (Função de Valor de Ação), denotada como Q(s, a), é a recompensa cumulativa esperada da ação a sob uma determinada política a partir do estado s. É definido como a recompensa cumulativa esperada de tomar a ação a no estado s e seguir a política π. Ou seja, Q(s, a) = E[recompensa cumulativa | tome a ação a no estado s e siga a política π].

3. Expressão da equação de Bellman

A equação de Bellman expressa a relação recursiva entre a função de valor de estado e a função de valor de ação e pode ser dividida em duas formas: a equação de Bellman da função de valor de estado e a equação de Bellman da função de valor de ação .

A equação de Bellman para a função de valor de estado:

Para um certo estado s, sua função de valor de estado V(s) pode ser calculada pela seguinte equação:

V(s) = E[ R(s, a) + γ * V(s') ], onde a representa a ação realizada no estado s, e s' representa o próximo estado transferido do estado s através da ação a, R( s, a) é a recompensa imediata obtida pela ação a no estado s, e γ é um fator de desconto (0 <= γ < 1), que é usado para medir a importância das recompensas futuras.

A equação de Bellman para a função de valor de ação:

Para um certo estado s e ação a, sua função de valor de ação Q(s, a) pode ser calculada pela seguinte equação:

Q(s, a) = E[ R(s, a) + γ * Σ[ T(s, a, s') * V(s') ] ], onde R(s, a) é tomado no estado s A recompensa imediata obtida pela ação a, γ é o fator de desconto, T(s, a, s') é a função de transição de estado, indicando a probabilidade de transferência para os estados s' após realizar a ação a no estado s, V(s' ) é a função de valor de estado para o próximo estado s'.

4. Aplicação da equação de Bellman

A equação de Bellman está no centro de muitos algoritmos de aprendizado por reforço, como Value Iteration e Policy Iteration. Usando a equação de Bellman, o agente pode encontrar a função de valor de estado ótima e a função de valor de ação no MDP, de modo a realizar a estratégia de tomada de decisão ótima. A aplicação da equação de Bellman também foi estendida ao aprendizado por reforço profundo, como em Q-Learning e Deep Q Network (DQN), para aprender políticas ótimas aproximando funções de valor de ação.

Iteração de política e iteração de valor

A iteração de política e a iteração de valor são dois métodos clássicos para resolver processos de decisão de Markov (MDPs) para encontrar a política ótima para maximizar a recompensa cumulativa.

iteração de política

A iteração de política é um método de otimização iterativo, que inclui duas etapas principais: avaliação de política (Policy Evaluation) e melhoria de política (Policy Improvement). Essas duas etapas são alternadas até que a política convirja para a política ótima.
1. Avaliação de política: Na etapa de avaliação de política, dada uma política, calculamos uma função de valor de estado para cada estado. A função de valor do estado representa a recompensa cumulativa esperada que pode ser obtida a partir desse estado sob a política atual. Resolvendo a equação de Bellman para a função de valor de estado, podemos obter atualizações da função de valor de estado até que a função de valor de estado convirja.
2. Melhoria da política: Na etapa de melhoria da política, atualizamos a política para melhorá-la com base na função de valor de estado obtida. Para cada estado, escolhemos a ação que maximiza a função de valor do estado como a nova política. Em seguida, conduzimos a avaliação da estratégia e alternamos continuamente a avaliação da estratégia e a melhoria da estratégia até que a estratégia convirja para a estratégia ideal.
A iteração da política garante a eventual convergência para uma política ótima, mas requer que a avaliação da política seja realizada em cada etapa, o que pode ser computacionalmente caro.

iteração de valor

A iteração de valor é uma abordagem mais direta para resolver políticas ótimas, que não requer avaliação de política explícita e melhoria de política.
1. Inicialize a função de valor de estado: Primeiro, inicializamos a função de valor de estado V(s) para qualquer valor para todos os estados s.
2. Atualização de valor iterativo: Em seguida, atualizamos a função de valor de estado usando a equação de Bellman da função de valor de estado até que converja para a função de valor de estado ideal. As regras de atualização são as seguintes:
  
  V(s) = max [ Σ(T(s, a, s') * [R(s, a, s') + γ * V(s')]) ], onde a representa a Ação, s' representa o próximo estado transferido do estado s através da ação a, R(s, a, s') é a recompensa imediata obtida pela ação a no estado s, e γ é o fator de desconto.
3. Obtenha a política ótima: Após a convergência da função de valor, podemos calcular a política ótima de acordo com a função de valor de estado ideal. Para cada estado s, escolhemos a ação que maximiza a função de valor do estado como a política ótima.
A iteração de valor não requer uma etapa de avaliação de política explícita, pois durante a iteração de valor atualizamos diretamente a função de valor de estado para aproximar a função de valor ideal. Embora a iteração de valor possa exigir mais iterações para convergir em alguns casos, geralmente é mais rápida do que a iteração de política e mais fácil de implementar.

Em resumo, tanto a iteração de política quanto a iteração de valor são métodos importantes para resolver MDPs e podem ajudar os agentes a encontrar estratégias ótimas de tomada de decisão para maximizar as recompensas cumulativas. Qual método escolher depende da complexidade e dos requisitos de desempenho do seu problema específico.

estudo Q

O Q-learning é um algoritmo de aprendizado por reforço baseado em iteração de valor para aprender políticas ótimas sem conhecimento do modelo. É um algoritmo de aprendizado de política off-line, o que significa que o agente pode aprender com a experiência passada sem interação em tempo real com o ambiente. O Q-learning encontra a política ótima aprendendo diretamente a função de valor de ação Q(s, a), onde s representa o estado e a representa a ação.

Fundamentos do Q-learning

Valor inicial: Antes de iniciar o aprendizado, a função de valor de ação Q(s, a) do par estado-ação precisa ser inicializada. Isso pode ser uma inicialização aleatória ou um valor inicial fornecido por algum conhecimento prévio.
Interagindo com o ambiente: o agente atualiza continuamente a função valor-ação interagindo com o ambiente. A cada passo de tempo t, o agente escolhe uma ação a_t de acordo com o estado atual s_t, e observa o feedback do ambiente, incluindo o próximo estado s_{t+1} e a recompensa imediata r_t obtida.
Atualização de valor Q: O agente usa a equação de Bellman para atualizar a função de valor de ação. De acordo com a equação de Bellman, o valor Q do par estado-ação atual pode ser atualizado por:

Q(s_t, a_t) = Q(s_t, a_t) + α * [r_t + γ * max[Q(s_{t+1}, a)] - Q(s_t, a_t)]，

Dentre eles, α é a taxa de aprendizado (learning rate), que é utilizada para controlar o tamanho do passo de cada atualização; γ é o fator de desconto (discount factor), que é utilizado para balancear a importância das recompensas imediatas atuais e recompensas futuras.
Convergência: Ao interagir continuamente com o ambiente e atualizar o valor Q, a função de valor de ação Q(s, a) irá gradualmente convergir para a função de valor de ação ótima Q^*(s, a). A função de valor de ação ótima representa a recompensa cumulativa máxima para o agente escolher a ação a começando do estado s sob a política ótima dada.

Vantagens e desvantagens do Q-learning

vantagem:

O Q-learning é um algoritmo de aprendizado offline que não requer interação em tempo real com o ambiente e pode aprender com a experiência anterior.
O Q-Learning é simples e intuitivo, fácil de implementar e entender.
Para problemas com estados discretos de pequena escala e espaços de ação, a taxa de convergência do Q-learning é geralmente mais rápida.

deficiência:

Quando o Q-learning lida com estados e espaços de ação em grande escala, ele precisa armazenar um grande número de valores Q, o que pode levar ao aumento do armazenamento e da complexidade computacional.
Para o problema de estado contínuo e espaço de ação, o Q-learning precisa usar métodos de aproximação de função (como rede neural) para aproximar a função de valor Q, que introduz os problemas de erro de aproximação e garantia de convergência.

Campo de aplicação

O Q-learning é amplamente utilizado em problemas de controle, direção autônoma, controle de robôs, estratégia de jogo, etc. Em problemas discretos de pequena escala, o Q-learning é um método eficaz de aprendizado por reforço. Ao lidar com problemas de grande escala, outros algoritmos mais avançados precisam ser usados para resolver o problema de armazenamento e complexidade computacional.

aprendizado de reforço profundo

Deep Reinforcement Learning (DRL) é um método que combina aprendizado profundo e aprendizado por reforço. Sua principal característica é o uso de redes neurais profundas para aproximar funções de valor ou funções de política, resolvendo assim problemas complexos, e tem alcançado resultados notáveis em muitas tarefas.

Principais componentes do Deep Reinforcement Learning

Aprendizado por reforço: O aprendizado por reforço refere-se a um método de aprendizado no qual um agente aprende a estratégia ideal para maximizar as recompensas cumulativas, interagindo com o ambiente e aprendendo a estratégia ideal por meio de tentativas e feedback contínuos. No aprendizado por reforço, o agente escolhe uma ação com base no estado atual e, em seguida, observa o feedback do ambiente, incluindo o próximo estado e a recompensa imediata. O agente otimiza continuamente a política ou função de valor interagindo com o ambiente.
Aprendizado profundo: o aprendizado profundo é um método de aprendizado de máquina que usa várias camadas de redes neurais para aprender padrões e representações complexos. A vantagem do aprendizado profundo é que ele pode lidar com dados de grande escala e de alta dimensão e pode aprender automaticamente a representação de recursos sem a extração manual de recursos.
Redes neurais profundas: as redes neurais profundas são usadas no aprendizado de reforço profundo para aproximar uma função de valor ou uma função de política. A arquitetura de uma rede neural geralmente inclui várias camadas ocultas, cada uma contendo vários neurônios. Redes neurais profundas são capazes de representar relações funcionais complexas e, assim, se destacar em problemas em espaços de estado de alta dimensão e espaços de ação.

Aplicação típica de DRL

Jogos: A DRL tem feito conquistas notáveis no campo dos jogos, especialmente nos jogos Atari. Ao aprender com a entrada bruta de nível de pixel, o DRL pode alcançar desempenho de jogo de nível sobre-humano, como Deep Q Network (DQN), alcançando excelentes resultados em vários jogos Atari.
Controle de robôs: DRL é amplamente utilizado em problemas de controle de robôs, incluindo controle de manipulador, navegação autônoma, etc. Ao interagir com robôs em ambientes reais ou simulados, o DRL pode aprender ações complexas de robôs e estratégias de controle.
Condução autônoma: o DRL também é amplamente utilizado no campo da direção autônoma. Por meio de ambientes de direção simulados ou testes de estrada reais, o DRL pode aprender a tomada de decisão e o controle de veículos autônomos em diferentes cenários.
Processamento de linguagem natural: DRL também tem certas aplicações no campo do processamento de linguagem natural. Por exemplo, DRL é usado para implementar tarefas como sistemas de diálogo, compreensão semântica, etc.

DRL desafios e desenvolvimento futuro

Embora o DRL tenha feito progressos importantes em muitas áreas, também enfrenta alguns desafios. Por exemplo:

Complexidade de amostragem: o DRL precisa interagir com o ambiente para coletar dados de amostra, o que pode exigir muita interação e tempo, especialmente em aplicativos do mundo real.
Estabilidade e convergência: o treinamento de redes neurais profundas pode enfrentar desafios de estabilidade e convergência, especialmente em tarefas complexas e de alta dimensão.

No futuro, o DRL continuará a se desenvolver para resolver tarefas mais complexas e desafiadoras. Pode haver algoritmos mais eficientes, técnicas de treinamento mais estáveis e métodos de amostragem de amostra mais eficazes. O aprendizado por reforço profundo continuará a desempenhar um papel importante no campo da inteligência artificial e promoverá o avanço contínuo da tecnologia de inteligência artificial.

Resumir

Neste tutorial, descrevemos brevemente os conceitos básicos de aprendizado por reforço, incluindo ambiente, agente, estado, ação, recompensa, política, processo de decisão de Markov, equação de Bellman, iteração de política, iteração de valor, Q-learning e estudo de reforço profundo.