Toutes les statistiques Chapitre 5

Contenu de ce chapitre

  • 5.1 Présentation
  • 5.2 Types de convergence
  • 5.3 La loi des grands nombres
  • 5.4 Le théorème central limite
  • 5.5 Méthode Delta

Quant aux noms clés, certains mots peuvent ne pas transmettre le sens, c'est pourquoi les noms clés sont organisés comme suit

1. La loi des grands nombres : la loi des grands nombres

2. Le théorème central limite : le théorème central limite

3. théorie des grands échantillons : théorie des grands échantillons

4. Théorie des limites : théorie des limites

5. Théorie asymptotique : théorie asymptotique

6. Théorème de Slutzky : Théorème de Slutzky

7. La loi faible des grands nombres (WLLN)

8. Théorème central limite multivarié : Théorème central limite multivarié

5.1 Présentation

L’un des aspects les plus intéressants de la théorie des probabilités est le comportement des séquences de variables aléatoires. Cette partie de la théorie des probabilités est appelée théorie des grands échantillons ou théorie des limites ou théorie asymptotique. La question la plus fondamentale est : la limite de la séquence de variables aléatoires X1, X2,... Qu'est-ce que le comportement ? Étant donné que les statistiques et l’exploration de données collectent toutes deux des données, nous réfléchissons naturellement à ce qui se passera lorsque de plus en plus de données seront collectées.

En calcul, si pour une raison quelconque \varepsilon >0, il existe un nombre supérieur à n tel |x_n-x|<\varepsilonque On dit simplement x_nqu'il converge vers x, et ce x est x_nla limite de . En théorie des probabilités, la convergence devient un peu plus subtile. Revenons un instant au calcul. Si pour tout n, il y a x_n=x, alors, évidemment lim_{n\rightarrow \infty}x_n=x. Pensons ensuite au modèle général de cet exemple. Si X1, X2... sont des séquences de variables aléatoires, elles sont indépendantes et conformes à la distribution N(0,1). Puisque ces variables aléatoires ont toutes la même distribution, on peut dire que Xn converge vers X et X suit une distribution normale X\simN(0,1). Mais ce n’est pas très précis, car pour tout n \mathbb{P}(Xn=X)=0(la probabilité que deux variables aléatoires consécutives soient égales est de 0)

Voici un autre exemple. Considérons X1, X2,...où Xi suit X_i \simN(0,1/n)une distribution. Intuitivement, lorsque n devient grand, Xn se concentre près de 0, on peut donc dire que Xn tend vers 0. Mais pour tout cela \mathbb{P}(X_n=0)=0, il est clair que nous devons développer un outil permettant de discuter de cette convergence de manière plus rigoureuse. Ce chapitre développera cette méthode appropriée.

Il y a deux perspectives principales dans ce chapitre, énoncées de manière informelle comme suit :

  1. La loi des grands nombres stipule que la moyenne de l'échantillon \bar{X}_n=n^{-1}\Sigma X_iconverge vers l'espérance, \mu = \mathbb{E}(X_i)ce qui signifie qu'elle \bar{X}_nest proche de μ avec une forte probabilité
  2. Le théorème central limite montre que la \sqrt{n}(\bar{X}_n-\mu)distribution converge vers la distribution normale. Cela signifie que lorsque n est suffisamment grand, la moyenne de l'échantillon suit une distribution normale

5.2 Types de convergence

Deux principaux types de convergence sont définis comme suit :

5.1 Définition

Soit X1, X2... des séquences de variables aléatoires, et X une autre variable aléatoire. Soit F_nla CDF de Xn, Fet soit la CDF de X.

  1. Pour tout \varepsilon > 0, n \to \inftyà cet instant , il existe \mathbb{P}(|X_n-X|>\varepsilon) \to 0. Alors Xn est dit converger vers X avec une probabilité notéeX_n \overset{P}{\to} X
  2. Si pour tout t, il existe \underset{n\to\infty}{\lim}F_n(t) =F(t), où F est une fonction continue, alors Xn est dit converger vers X en distribution, notée

Lorsque nous contraignons la variable aléatoire à obéir à une distribution de masse ponctuelle, nous modifions légèrement la façon dont nous l'écrivons. Si \mathbb{P}(X=c) = 1, et X_n \overset p \to X, alors nous pouvons l'écrire sous la forme X_n \overset P \to c. De même, nous pouvons également l'écrire sous la forme

Il existe un autre type de convergence qui est introduit principalement parce qu'il est très utile pour prouver la convergence probabiliste.t \neq 0

5.2 Définition

Si, n \to \inftyà ce moment-là , \mathbb{E}(X_n-X)^2 \à 0, alors Xn converge vers X sous le carré moyen. Désigné commeX_n \overset{qm} \to X

De même, si X obéit à la distribution de masse ponctuelle, cela peut s'écrireXn \overset {qm} \to c

5.3 Exemple

Supposons X_n \simN(0,1/n)que Intuitivement, Xn se rapproche progressivement de 0. On peut donc dire que Xn converge vers 0. Voyons maintenant si c'est correct. Soit F la fonction de distribution de masse ponctuelle en 0. Notez \sqrt{n}X_n\sim N(0,1)que Z est une variable aléatoire normale standard. Pour t<0, il y a F_n(t) = \mathbb{P}(X_n<t) = \mathbb{P}(\sqrt nX_n < \sqrt nt) = \mathbb{P}(Z < \sqrt nt) \to 0, parce que \sqrt nt \to - \infty. Et pour t>0, il y a F_n(t)=\mathbb{P}(X_n < t)= \mathbb{P}(\sqrt n X_n < \sqrt nt) = \mathbb{P}(Z < \sqrt nt) \to 1, parce que \sqrt nt \to \infty.

Donc pour t \neq 0, il y a F_n(t) \à F(t). Donc Xn converge vers 0 lors de la redistribution.

Notez que, F_n(0)=1/2 \neq F(0)=1donc à t=0, la convergence n’est pas établie. Ceci n'est pas important car t = 0 n'est pas un point continu de F, et dans la définition de la convergence de distribution, seule la convergence en points continus est requise. Voir ci-dessous

Pensons maintenant à la convergence en probabilité. Pour tout \varepsilon > 0, quand n \to \infty, en utilisant l'inégalité de Markov, on obtient

\mathbb{P}(|X_n|>\varepsilon) =\mathbb{P}(|X_n|^2-\varepsilon^2) \leq \frac{\mathbb{E}(Xn^2)}{\varepsilon ^2}=\frac{\frac{1}{n}}{\varepsilon^2}\to 0

Donc Xn converge vers 0 avec probabilité.X_n \overset{P} \to 0

Le théorème suivant donne la relation entre deux types de convergence. Les résultats sont résumés dans la figure ci-dessous

5.4 Théorème

La relation suivante est établie

  1. X_n \overset{qm} \to XimpliciteX_n \overset{P} \to X
  2. X_n \overset{P} \to XCela implique que Xn converge vers X en distribution,
  3. Si Xn converge vers X en distribution, et \mathbb{P}(X=c)=1, alors Xn converge vers X en probabilité,X_n \overset{P} \to X

Habituellement, à l’exception du troisième point, l’inverse n’est pas vrai.

Pour prouver, commencez par prouver le premier point. Supposons que X_n \overset{qm} \to X, pour fixe \varepsilon > 0. Ensuite, utilisez l'inégalité de Markov

\mathbb{P}(|X_n-X| >< \varepsilon) = \mathbb{P}(|X_n-X|^2>\varepsilon^2) \leq \frac{\mathbb{E}(|X_n- X|^2)}{\varepsilon^2} \to 0

Démontrez le deuxième point. Cette preuve est un peu compliquée, vous pouvez donc la sauter si vous ne souhaitez pas la lire. Fixe \varepsilon > 0, soit x un point continu de F. Donc

F_n(x)

          =\mathbb{P}(X_n < x)\\\\ =\mathbb{P}(X_n\leq x,X \leq x + \varepsilon)+\mathbb{P}(X_n \leq x,X > x+ \varepsilon) \\\\ \leq \mathbb{P}(X \leq x+\varepsilon) + \mathbb{P}(|X_n - X| > \varepsilon)\\\\ =F(x+\varepsilon)+ \mathbb{P}(|X_n-X| > \varepsilon)

en même temps,

F(x-\varepsilon)

    =\mathbb{P}(X \leq x -\varepsilon) =\mathbb{P}(X \leq x -\varepsilon,X_n \leq x )+\mathbb{P}(X \leq x -\varepsilon, X_n > x)\\\\ \leq Fn(x)+\mathbb{P}(|X_n-X| > \varepsilon)

donc,

F(x-\varepsilon) - \mathbb{P}(|X_n-X| > \varepsilon) \leq F_n(x) \leq F(x+\varepsilon) +\mathbb{P}(|X_n-X| > \varepsilon)

En prenant la limite , on n \to \inftyobtient,F(x-\varepsilon) \leq \underset{n\to \infty }\lim inf F_n(x) \leq \underset{n\to \infty }\lim sup F_n(x) \leq F(x+\varepsilon )

La liste est vraie pour tous \varepsilon > 0, prenons la limite de la formule ci-dessus \varepsilon \to 0, et F est continue en x\lim_n F_n(x)=F(x)

Démontrez le troisième point. corrigé \varepsilon > 0, alors

\mathbb{P}(|X_n-c| > \varepsilon)

    =\mathbb{P}(X_n < c-\varepsilon)+\mathbb{P}(X_n > c+ \varepsilon)\\\\ \leq \mathbb{P}(X_n < c-\varepsilon)+\mathbb{ P}(X_n > c+ \varepsilon)\\\\ =F_n(c-\varepsilon)+1-F_n(c+\varepsilon)\\\\ \to F(c-\varepsilon)+1-F(c+\ varepsilon)\\\\ =0+1-1=0

Montrons maintenant que la direction opposée n’est pas vraie.

Convergence en probabilité ne signifie pas convergence en carré moyen : laissez U \sim Unif(0,1), et laissez encore X_n =\sqrt{n}I_{(0,1/n)}(U), alors

\mathbb{P}(|X_n| > \varepsilon) = \mathbb{P}(\sqrt n I_{(0,1/n)}(U) > \varepsilon) = \mathbb{P}(0 \leq U < 1/n) = 1/n \à 0.Donc X_n \overset{P} \to 0, mais pour tout n, \mathbb{E}(X_n^2)=n\int_0^1du=1, donc Xn ne convergera pas sous le carré moyen.

Convergence en distribution ne signifie pas convergence en probabilité : soit X\simN(0,1), X_n =-X, où n=1,2,3.... Donc X_n \simN(0,1). Pour tout n, Xn et X ont la même fonction de distribution. Par conséquent, pour tout x \lim _n F_n(x) = F(x), Xn converge distributionnellement vers X. Mais \mathbb{P}(|X_n-X| > \epsilon) = \mathbb{P}(|2X| > \epsilon) = \mathbb{P}(|X| > \epsilon/2) \neq. Donc Xn ne converge pas vers X en probabilité

Attention : On pourrait penser que si X_n \overset{P} \to b, alors \mathbb{E}(X_n) \to b, c'est incorrect. Soit X une variable aléatoire avec probabilité \mathbb{P}(X_n=n^2)=1/n.Maintenant \mathbb{P}(X_n=0) = 1-(1/n), \mathbb{P}(|X_n| < \varepsilon) = \mathbb{P}(X_n = 0) =1-(1/n) \to 1.Donc, X_n \overset{P} \to 0.Mais, \mathbb{E}(X_n) = [n^2\times(1/n)]+[0\times (1-(1/n))] = n,donc\mathbb{E}(X_n) \to \infty

5.5 Théorème

Soient Xn,X,Yn,Y des variables aléatoires, soit g une fonction continue

  1. si X_n \overset{P} \to X, et Y_n \overset{P} \to Y, alorsX_n+Y_n \overset{P} \to X+Y
  2. si X_n \overset{qm} \to X, et Y_n \overset{qm} \to Y, alorsX_n+Y_n \overset{qm} \to X+Y
  3. Si Xn converge vers X en distribution et Yn converge vers c en distribution, alors Xn+Yn converge vers X+c en distribution
  4. si X_n \overset{P} \to X, et Y_n \overset{P} \to Y, alorsX_nY_n\overset{P}\à XY
  5. Si Xn converge vers X en distribution et Yn converge vers c en distribution, alors XnYn converge vers cX en distribution
  6. si X_n \overset{P} \to X, alorsg(X_n) \overset{P} \to g(X)
  7. Si Xn converge vers X en distribution, alors g(Xn) converge vers g(X) en distribution

Parmi eux, 3 à 5 sont le théorème de Slutzky. Il convient de noter que Xn converge vers X en distribution et Yn converge vers Y en distribution. On ne peut pas conclure que Xn+Yn converge vers X+ en distribution. Y

5.3 Loi des grands nombres

Venons-en maintenant au summum de la théorie des probabilités : la loi des grands nombres. Cette théorie stipule que la moyenne d'un grand nombre d'échantillons est proche de la moyenne de la distribution. Par exemple, si vous lancez un grand nombre de pièces, la proportion de faces sera proche de 1/2. Décrivons-le maintenant plus précisément.

Supposons que X1 \mu =\mathbb{E}(X_1), _\sigma^2=\mathbb{V}(X_1)\bar{X}_n=n^{-1}\Sigma X_i\mathbb{E}(\bar{X}_n) = \mu\mathbb{V}(\bar{X}_ n)= \sigma^2/n

5.6 Théorème

La loi faible des grands nombres (WLLN)

Si X1, X2...Xn sont distribués indépendamment et de manière identique, alors\bar{X}_n \overset{P} \to \mu

Explication de WLLN (Loi des Grands Nombres) : À mesure que n augmente, la distribution de Xn se concentre progressivement autour de μ.

Preuve : Hypothèse \sigma < \infty... Cette hypothèse n'est pas obligatoire, mais elle simplifie la preuve. En utilisant l'inégalité de Chebyshev, nous obtenons :

\mathbb{P}(|\bar{X}_n-\mu| > \varepsilon) \leq \frac{\mathbb{V}(\bar{X}_n)}{\varepsilon^2}=\frac{ \sigma^2}{n\varepsilon^2}.Quand n tend vers l’infini, cette formule tend vers 0.

5.7 Exemple

Envisagez de lancer une pièce de monnaie où la probabilité de tomber face est de p. Soit Xi le résultat d'un seul tirage au sort (0,1). Par conséquent p=\mathbb{P}(X_i=1)=E(X_i), la proportion de n faces après ce tirage est :\bar{X}_n . Selon la loi des grands nombres, \bar{X}_nelle converge vers p en probabilité. Cela ne veut pas dire qu’il \bar{X}_nest numériquement égal à p. Cela signifie simplement que, lorsque n est suffisamment grand, \bar{X}_nla distribution de est étroitement autour de p. Si p=1/2, alors pour un grand n, on peut poser \mathbb{P}(0,4 \leq \bar{X}_n \leq 0,6) \geq 0,7. Premièrement, \mathbb{E}(\bar{X}_n) = p = 1/2, et \mathbb{V}(\bar{X}_n)=\sigma^2/n=p(1-p)/n=1/(4n), à partir de l'inégalité de Chebyshev :

\mathbb{P}(0,4 \leq \bar{X}_n \leq 0,6)

=\mathbb{P}(|\bar{X}_n-\mu| \leq 0.1)\\\\ =1-\mathbb{P}(|\bar{X}_n-\mu| > 0.1)\ \\\ \geq 1-\frac{1}{4n(0.1)^2}\\\\ =1-\frac{25}{n}

Bien sûr, si n = 84, alors l'expression sera supérieure à 0,7

5.4 Théorème central limite

La loi des grands nombres stipule \bar{X}_nque les distributions de \mu. Cela ne nous aide pas à énoncer \bar{X}_nles propriétés probabilistes, pour lesquelles nous avons également besoin du théorème central limite.

Supposons que X1 \mu, ... _ Ce théorème est frappant car il ne nécessite rien d'autre que l'existence d'une moyenne et d'une variance.\sigma^2\bar{X}_n\mu\sigma^2/n

5.8 Théorème

Le théorème central limite (CLT). Soit X1,...Xn indépendant et identiquement distribué \muavec moyenne et variance . \sigma^2Supposons \bar{X}_n=n^{-1}\Sigma_{i=1}^nX_i… Alors

Z_n=\frac{\bar{X}_n-\mu}{\sqrt{\mathbb{V}(\bar{X}_n)}}=\frac{\sqrt n(\bar{X}_n-\ mu)}{\sigma}La distribution converge vers Z (distribution normale)

autrement dit,\underset {n\to \infty }\lim \mathbb{P}(Z_n \leq z) = \Phi(z) = \int _{-\infty}^z \frac{1}{\sqrt{2\ pi}}e^{-x^2/2}dx

Explication : L'état de probabilité par rapport à Xn peut être approximé en utilisant une distribution normale. Ce dont nous nous rapprochons, c'est l'état de probabilité, et non la variable aléatoire elle-même.

En plus de la distribution de Zn convergeant vers N(0,1), il existe plusieurs formats suivants pour indiquer que la distribution de Zn converge vers la normale. Ils veulent tous dire la même chose.

5.9 Exemple

Supposons que le nombre d'erreurs de programme par minute suive une distribution de Poisson de moyenne 5. Il y a 125 programmes disponibles. Soit X1,...X125 le nombre d'erreurs de ces programmes. nous voulons demander\mathbb{P}(\bar{X}_n < 5.5)

Laissez \mu = E(X_1) = \lambda = 5, \sigma^2 = \mathbb{V}(X_1) = \lambda =5.alors\mathbb{P}(\bar{X}_n < 5,5 ) = \mathbb{P}(\frac{\sqrt n (\bar{X}_n - \mu)}{\sigma} < \frac{\sqrt n (5,5 - \mu)}{\sigma} ) \approx \mathbb{P}(Z < 2,5) = 0,9938

Le théorème central limite nous dit qu'il Z_n=\sqrt n (\bar{X}_n-\mu)/\sigmaest approximativement N(0,1). Cependant, nous le connaissons rarement \sigma. Nous l'estimerons plus tard de la manière suivante \sigma:

S_n^2=\frac{1}{n-1}\overset{n}{\underset {i=1}\Sigma}(X_i-\bar{X}_n)^2

Cela nous amène à la question suivante S_n^2: \sigmale théorème central limite est-il toujours valable si nous l’utilisons à la place ? La réponse est oui

5.10 Théorème

En supposant les mêmes conditions que le CLT, alors

\frac{\sqrt n (\bar{X}_n -\mu)}{S_n} \sim N(0,1)

Vous vous demandez peut-être quelle est la précision de cette approximation normale ? La réponse sera donnée dans le théorème de Berry-Esseen

5.11 Théorème (l'inégalité de Berry-Esseen)

Supposons \mathbb{E}|X_1|^3 < \infty… Alors\underset z {sup}|\mathbb{P}(Z_n<z)-\Phi(z)|  \leq \frac{33}{4}\frac{\mathbb{E}|X_1 - \mu|^3}{\sqrt n\sigma ^3}

Il existe également une version multivariée du théorème central limite

5.12 Théorème (Théorème central limite multivarié)

Soient X1,...Xn des vecteurs indépendants et identiquement distribués, où Xi est :

X_i=\begin{pmatrix} X_{1i}\\ X_{2i}\\ \vdots\\ X_{ki} \end{pmatrix}

La moyenne μ est :

\mu=\begin{pmatrix} \mu_1\\ \mu_2\\ \vdots \\ \mu_k \end{pmatrix}=\begin{pmatrix} \mathbb{E}(X_{1i})\\ \mathbb{E }(X_{2i})\\ \vdots \\ \mathbb{E}(X_{ki}) \end{pmatrix}

Matrice de variance Σ.

Soit \bar{X} = \begin{pmatrix} \bar{X}_1\\ \bar{X}_2\\ \vdots\\ \bar{X}_k \end{pmatrix}, \bar{X}_j=n^{-1}\overset n {\underset {i=1}\Sigma }X_{ji}Où.Puis \sqrt n(\bar{X} -\mu)converger vers la probabilitéN(0,\Sigma)

5.5 Méthode Delta

Si la distribution limite de Yn est une distribution normale, alors la méthode Delta fournit g(O_n)une méthode pour trouver la distribution limite, où la fonction g est n'importe quelle fonction continue.

5.13 Théorème (méthode Delta)

Supposons : \frac{\sqrt n (Y_n -\mu)}{\sigma}la distribution converge vers N(0,1), et g est une fonction différentiable, alors \frac{\sqrt n( g(Y_n) - g(\mu))}{|g'(\mu)|\sigma}la distribution converge vers N(0,1).

En d’autres termes, Y_n \approx N(\mu,\frac{\sigma^2}{n})impliciteg(Y_n) \approx N(g(\mu),(g'(\mu))^2\ \frac{\sigma^2}{n})

5.14 Exemple

Soient X1,..Xn indépendants et identiquement distribués de moyenne finie μ et de variance finie σ. D'après le théorème central limite, \sqrt n (\bar X_n -\mu )/\sigmala distribution converge vers N(0,1). Soit W_n=e^{\bar X_n}. Donc W_n=g(\bar X_n), où g(s)=e^s. Parce que g'(s)=e^s. D'après la méthode Delta, on obtientW_n \approx N(e^\mu,e^{2\mu}\sigma^2/n)

La méthode delta a également une version multivariée

5.15 Théorème

Soit Y_n=(Y_{n1},...Y_{nk})une séquence vectorielle aléatoire qui satisfait à ce qui suit :

\sqrt n (Y_n -\mu )la probabilité converge versN(0,\Sigma)

commande g:\mathbb{R}^k \to \mathbb{R}, et

\triangledown g(y)=\begin{pmatrix} \frac{\partial g}{\partial y_1}\\ \vdots\\ \frac{\partial g}{\partial y_K} \end{pmatrix}

Soit \triangledown _\mula valeur \triangledown g(y)à y=\mu, et \triangledown _\muqu'aucun des éléments ne soit 0. Donc

\sqrt n (g(Y_n)-g(\mu))La distribution converge versN(0,\triangledown _\mu^T\Sigma\triangledown _\mu)

5.16 Exemple

Soit un vecteur \begin{pmatrix} X_{11}\\ X_{21} \end{pmatrix},\begin{pmatrix} X_{12}\\ X_{22} \end{pmatrix},\dots, \begin{pmatrix} X_{1n}\\ X_{2n} \end{pmatrix}aléatoire \mu=(\mu_1,\mu_2)^TIID de moyenne et de variance Σ. Soit \bar X_1 = \frac{1}{n}\overset n {\underset{i=1}\Sigma}X_{1i}\bar X_2 = \frac{1}{n}\overset n {\underset{i=1}\Sigma}X_{2i}, et définissons Y_n=\bar X_1 \bar X_2. Donc Y_n=g(\barre X_1,\barre X_2)où, g(s_1,s_2)=s_1s_2.selon le théorème central limite

\sqrt n \begin{pmatrix} \bar X_1 - \mu_1\\ \bar X_2 - \mu_2 \end{pmatrix}Converge vers N(0,Σ) dans la distribution

maintenant \triangledown g(s)=\begin{pmatrix} \frac{\partial g}{\partial s_1}\\ \frac{\partial g}{\partial s_2} \end{pmatrix}=\begin{pmatrix} s_2 \\ s_1 \end{pmatrix}, et\triangledown_\mu^T\Sigma\triangledown_\mu=(\mu_2\ \ \mu_1)\begin{pmatrix} \sigma_{11} & \sigma_{12}\\ \sigma_{21} & \sigma_{22} \end{pmatrix}\begin{pmatrix} \mu_2\\ \mu_1 \end{pmatrix}=\mu_2^2\sigma_{11}+2\mu_1\mu_2\sigma_{12}+\mu_1^2\sigma_{ 22}

\sqrt n (\bar X_1 \bar X_2 - \mu_1\mu_2)La distribution converge donc versN(0,\mu_2^2\sigma_{11}+2\mu_1\mu_2\sigma_{12}+\mu_1^2\sigma_{22})

Fin de ce chapitre

Non traduit : notes de littérature, annexes, devoirs

Je suppose que tu aimes

Origine blog.csdn.net/xiaowanbiao123/article/details/133301048
conseillé
Classement