[Mathe] Wichtigkeitsbeispielableitung [mit Python-Implementierung]

Artikelverzeichnis

[Mathe] Wichtigkeitsbeispielableitung [mit Python-Implementierung]

笔者在学习强化学习的过程中，经常遇到重要性采样的问题，这里简要记录一下推导过程方便以后查看。

1. Warum ist ein Wichtigkeitsbeispiel erforderlich?

Warum ist eine Wichtigkeitsstichprobe erforderlich? Angenommen, wir haben derzeit eine Zufallsvariable $XX\sim \mathcal{X}$ , und die Zufallsvariable gehorcht der Wahrscheinlichkeitsverteilung $p_0(X)$ , unser Ziel ist es, den Erwartungswert $E_{X \sim S} [X]$ , wir kennen auch die ZufallsvariableEine weitereleicht zugänglicheWahrscheinlichkeitsverteilung $p_1(X) für$ $X$ $P (X)$ , wie berechnen wir die Wahrscheinlichkeitsverteilung $P$ Erwartung EX ∼ p 0 [ X ] unter $($ $X$ $)$ $\mathbb{E}_{X\sim p_0}[X]$ ? Diese Technik wird Importance Sample genannt.

2. Ableitung der diskreten Verteilung

Nehmen Sie an, dass die Zufallsvariable $X$ ist eine diskrete Wahrscheinlichkeitsverteilung und wir haben die Wahrscheinlichkeitsverteilung $p_1(X)$ gibt es identisch verteilte Stichproben $\{x_i\}^n_{i=1}$ . In der Wahrscheinlichkeitsverteilung $p_0(X)$ Erwartung EX ∼ p 0 [ X ] unter $($ $X$ $)$ $\mathbb{E}_{X\sim p_0}[X]$ kann durch die folgende Formel ausgedrückt werden

$\mathbb{E}_{X\sim p_0}[X] = \sum_{x\in\mathcal{X}}p_0(x)x = \sum_{x\in\mathcal {X}}p_1(x)\underbrace{\frac{p_0(x)}{p_1(x)}x}_{f(x)} = \mathbb{E}_{X\sim p_1}[f( X)] \\ \mathbb{E}_{X\sim p_0}[X] = \mathbb{E}_{X\sim p_1}[f(X)] \ approbiert 1}{n} \sum^n_{i=1}f(x_i) = \frac{1}{n} \sum^n_{i=1} \underbrace{\frac{p_0(x_i)}{p_1( x_i)}}_{\text{Wichtigkeitsgewicht}}x_i$

其中, $\frac{p_0(x_i)}{p_1(x_i)}$ wird als Wichtigkeitsgewicht bezeichnet. Mithilfe dieses Wichtigkeitsgewichts können wir die Wahrscheinlichkeitsverteilung $p_1(X) berechnen.$ = 1 n \ { $x_i\}^n_{i=1}$ , um das erwartete $\mathbb{E}_{X\sim p_0}[X] zu berechnen$ ist weg.

3. Ableitung der kontinuierlichen Verteilung

Nehmen wir in ähnlicher Weise die Zufallsvariable $X$ ist eine kontinuierliche Wahrscheinlichkeitsverteilung und wir haben die Wahrscheinlichkeitsdichtefunktion $p_1(x)$ , es gibt identisch verteilte Stichproben $\{x_i\}^n_{i=1}$ . In der Wahrscheinlichkeitsfunktion $p_0(x)$ unter $($ $x$ $) \sim p 0 [ X ] \mathbb{E}_{X\sim p_0}[X]$ $E_{X \sim S} [X]$ kann durch die folgende Formel ausgedrückt werden

$\mathbb{E}_{X\sim p_0}[X] = \int_{-\infty}^\infty x \times p_0(x) dx = \int_{-\ infty}^\infty p_1(x) \times \underbrace{\frac{p_0(x)}{p_1(x)}\times x}_{f(x)} dx = \mathbb{E}_{X\ sim p_1}[f(X)] \\$
Anschließend verwenden wir eine große Anzahl diskreter Stichproben, um die kontinuierliche Erwartung
$\mathbb{E}_{X\sim p_0}[X] = zu schätzen \mathbb{E}_{X\sim p_1}[f(X)] \ approx \bar{f} = \frac{1}{n} \sum^n_{i=1}f(x_i) = \frac {1}{n} \sum^n_{i=1} \underbrace{\ frac{p_0(x_i)}{p_1(x_i)}}_{\text{Wichtigkeitsgewicht}}x_i$

3. Ein Beispiel

Angenommen, $X\in\mathcal{X}={+1,-1}$ , Wahrscheinlichkeitsverteilung $p_0(X)$ erfüllt

$P (X = + 1) = 0,5, P (X = - 1) = 0,5$

Dann ist in der Wahrscheinlichkeitsverteilung $p_0$ Die folgenden Erwartungen sind:

$\times 0,5 = 0$

Angenommen, eine andere Wahrscheinlichkeitsverteilung $p_1(X)$ erfüllt

$P (X = + 1) = 0,8, P (X = - 1) = 0,2$

Dann ist die Wahrscheinlichkeitsverteilung $p_1$ Die folgenden Erwartungen sind:

$\times 0,2 = 0,6$

Durch Wichtigkeitsstichprobe können wir die Wahrscheinlichkeitsverteilung $p_1(X) übergeben.$ zur Berechnung der Wahrscheinlichkeitsverteilung $p_0(X)$ Der erwartete Wert unter $($ $X$ $) ist$

$sum_{i=1}^n \frac{p_0(x_i)}{p_1(x_i)}x_i$

Der Implementierungscode lautet wie folgt:

import numpy as np
import matplotlib.pyplot as plt
# reproducible
np.random.seed(0)

# 定义元素和对应的概率
elements = [1, -1]
probs1 = [0.5, 0.5]
probs2 = [0.8, 0.2]

# 重要性采样 importance sample
sample_times = 300
sample_list = []
i_sample_list = []
average_list = []
importance_list = []
for i in range(sample_times):
    sample = np.random.choice(elements, p=probs2)
    sample_list.append(sample)
    average_list.append(np.mean(sample_list))
    if sample == elements[0]:
        i_sample_list.append(probs1[0] / probs2[0] * sample)
    elif sample == elements[1]:
        i_sample_list.append(probs1[1] / probs2[1] * sample)
    importance_list.append(np.mean(i_sample_list))



plt.plot(range(len(sample_list)), sample_list, 'o', markerfacecolor='none', label='sample data')
plt.plot(range(len(average_list)), average_list, 'b--', label='average')
plt.plot(range(len(importance_list)), importance_list, 'g--', label='importance sampling')
plt.axhline(y=0.6, color='r', linestyle='--')
plt.axhline(y=0, color='r', linestyle='--')
plt.ylim(-1.5, 2.5) # 限制y轴显示范围
plt.xlim(0,sample_times) # 限制x轴显示范围
plt.legend(loc='upper right')
plt.show()

Die Ergebnisse sind wie folgt. Es ist ersichtlich, dass unter Verwendung von $p_1(X)$ _ $E_{X \sim S} [__$ _ $E_{X \sim S} [X] = 0$ 。