Distância de Wasserstein, mapas de encolhimento e teoria moderna de RL

Distância de Wasserstein, Mapeamento de Contração e Teoria RL Moderna | por Kowshik chilamkurthy | Médio

1. Descrição

        Conceitos e relações que os matemáticos exploram com algumas aplicações em mente - décadas depois, tornam-se soluções inesperadas para problemas que nunca imaginaram. A geometria de Riemann foi descoberta por razões puras - sem nenhuma aplicação - e mais tarde foi usada por Einstein para explicar a estrutura do espaço-tempo e da relatividade geral.

2. Conceito de Aprendizagem por Reforço RL

        No aprendizado por reforço (RL), os agentes buscam políticas ótimas para problemas de decisão sequencial. Uma abordagem comum ao aprendizado por reforço, que modela a expectativa dessa recompensa ou valor. No entanto, avanços recentes em RL sob a bandeira de "RL distribuído" focam na distribuição de retornos aleatórios R recebidos pelo agente. O valor da operação de estado pode ser considerado explicitamente como uma variável aleatória Z com valor esperado Q        

Equação 1: Operador de Bellman Ordinário B

O operador normal de Bellman  (Eq-1) desempenha um papel crucial na aproximação do valor de Q  , minimizando iterativamente a distância L-quadrada entre Q e BQ   ( aprendizado TD ).

Equação 2: Operador de Bellman distribuído ⲧπ

Da mesma forma, o operador de Bellman distribuído ⲧπ aproxima o valor de Z minimizando iterativamente a distância entre Z e ⲧπ Z.

Z e Ⲧπ Z não são vetores, mas distribuições, como calcular a distância entre 2 distribuições de probabilidade diferentes ? A resposta pode ser muitas (KL, métricas DL, etc.), mas estamos particularmente interessados ​​na distância de Wasserstein .

3. Qual é a distância de Wasserstein

        O matemático russo Leonid Vaseršteĭn surgiu com o conceito em 1969. A distância de Wasserstein é uma medida da distância entre duas distribuições de probabilidade. Também é conhecida como distância bulldozer, abreviação de distância EM, porque informalmente pode ser interpretada como o custo mínimo de energia para mover e transformar uma pilha de terra da forma de uma distribuição de probabilidade na forma de outra.

A distância do bulldozer, fonte da imagem: autor

A métrica de Wasserstein ( dp ) entre as funções de distribuição cumulativas F, G é definida como:

Equação 3: Métrica de Wasserstein

onde o ínfimo leva todos os pares de variáveis ​​aleatórias (U, V), com as respectivas distribuições cumulativas F e G. dp(F, G) também é escrito como:

Equação 4: Métrica de Wasserstein

exemplo

Vejamos primeiro um caso simples: suponha que temos duas distribuições discretas f(x) e g(x), definidas da seguinte forma:

f(1) = 0,1, f(2) = 0,2, f(3) = 0,4, f(4) = 0,3 g(1) = 0,2, g(2) = 0,1, g(3 ) = 0,2,g
(4) = 0,5

Vamos calcular a Equação 3: δ0 = 0,1–0,2 = -0,1 δ1= 0,2–0,1 = 0,1–2,0 = 4,0 δ2= 0,2–3,0 = 3,0



δ5= 0,2–<>.<> = -<>.<> definido no Métrica de Wasserstein ( dp )

Portanto  métrica de Wasserstein ( dp )  =∑|δi|=0,6

4. Por que escolher a distância Wasserstein

        Ao contrário da divergência de Kullback-Leibler, a métrica de Wasserstein é uma métrica de probabilidade verdadeira, levando em consideração as probabilidades e distâncias de vários eventos de resultado. Ao contrário de outras métricas de distância, como a divergência KL, a distância de Wasserstein fornece uma representação significativa e suave da distância entre as distribuições. Essas propriedades tornam Wasserstein adequado para domínios em que a semelhança subjacente dos resultados é mais importante do que a probabilidade de uma correspondência exata.
        

Exemplo gerado pelo Python, crédito da imagem: autor

Direita : Para a divergência KL, a medida é a mesma entre as distribuições vermelha e azul, enquanto a distância de Wasserstein mede o trabalho necessário para transferir a massa de probabilidade do estado vermelho para o estado azul.

Esquerda: a distância de Wasserstein tem um problema. Enquanto a transferência ocorre, a distância permanece a mesma e a massa de probabilidade permanece a mesma, independentemente da direção em que ocorre a transferência. Portanto, não temos como raciocinar sobre a distância.

5. ɣ-contração

        Os mapas de encolhimento desempenham um papel matemático fundamental na análise clássica do aprendizado por reforço. Vamos primeiro definir a contração

5.1 Mapeamento de Encolhimento

        Uma função (ou operador ou mapeamento) definida em elementos de um espaço métrico é uma contração se existe alguma constante ɣ tal que para quaisquer dois elementos dos espaços métricos X₁ e X₂ vale o seguinte:(X, d)

        Equação 5: Mapeamento de Encolhimento

        Isso significa que após a aplicação do mapa f(.) sobre os elementos X₁ e X₂, a distância entre eles aumenta em pelo menos um fator ɣ  .

5.2 Contração RL

        A comprovação do encolhimento é importante porque justifica o uso da própria métrica de distância. O operador de distribuição ⲧ π  é usado para estimar Z(x, a), e verifica-se que ⲧ π  é uma contração de dp, o que significa que todos os momentos também convergem exponencialmente rápido.

        Equação 6: ɣ contração

        O encolhimento mostra que aplicar o operador  Ⲧ  a 2 distribuições diferentes encurta a distância entre elas, portanto a escolha da métrica de distância é importante. Vamos agora tentar provar que o "operador de distribuição ⲧπ" é uma contração da distância de Wasserstein (dp).

5.3 Comprovação

3 propriedades importantes         da métrica de Wasserstein nos ajudam a demonstrar o encolhimento.

6. Conclusão

        Neste blog, definimos a distância de Wasserstein e discutimos suas vantagens e desvantagens. Justificamos seu uso como métrica de distância em operadores de Bellman distribuídos demonstrando seu encolhimento. Mas isso é apenas o fim do começo, a distância de Wasserstein apresenta desafios ao calcular gradientes estocásticos, o que a torna ineficaz ao usar aproximações de função. Em meu próximo blog, discutirei como aproximar a métrica de Wasserstein usando regressão quantílica.

7. Citação

  1. distribuições - Quais são as vantagens da métrica de Wasserstein em comparação com a divergência de Kullback-Leibler? - Validação Cruzada
  2. https://runzhe-yang.science/2017-10-04-contraction/#contraction-property

3.  Uma perspectiva distributiva de aprendizado por reforço

Acho que você gosta

Origin blog.csdn.net/gongdiwudu/article/details/131982634
Recomendado
Clasificación