PAC学习框架【latex原稿】

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/itnerd/article/details/84937922

pdf编译结果


\documentclass[a4paper,11pt]{ctexart}
\title{PAC学习框架}
\author{itnerd}
\date{\today}

\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{geometry}
\usepackage{cite}
\usepackage{latexsym}
\usepackage{amsmath}
\usepackage{amsfonts}
\newtheorem{definition}{定义}
\newtheorem{theorm}{定理}
\newtheorem{proof}{证明}

\CTEXsetup[name={第,节}]{section}
\CTEXsetup[beforeskip = {20bp plus 1ex minus 0.2ex}]{section}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{section}
\CTEXsetup[format = {\zihao{4}\bfseries}]{section}
\CTEXsetup[name={第,小节}]{subsection}
\CTEXsetup[beforeskip = {12bp plus 1ex minus 0.2ex}]{subsection}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{subsection}
\CTEXsetup[format = {\fontsize{13bp}{15.6bp}\selectfont\bfseries}]{subsection}
\CTEXsetup[beforeskip = {12bp plus 1ex minus 0.2ex}]{subsubsection}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{subsubsection}
\CTEXsetup[format = {\zihao{-4}\bfseries}]{subsubsection}
\geometry{
	a4paper, hmargin = 2.6cm, top = 2.92cm, bottom = 3.03cm,
	headheight = 0.45cm, headsep = 0.55cm, footskip = 1.05cm
}


\begin{document}
\maketitle

\pagestyle{plain}

\section{PAC学习模型}
首先,我们需要引入一些记号和定义。记输入空间为 $\mathcal{X}$, 包含所有可能的样本。记所有的标签或者目标值为 $\mathcal{Y}$,假定我们考虑二分类问题,则有$\mathcal{Y} = \{0,1\}$。一个\textbf{概念} $c:\mathcal{X} \rightarrow \mathcal{Y}$ 是指一个从$\mathcal{X}$到$\mathcal{Y}$的映射,既然$\mathcal{Y} = \{0,1\}$,我们可以用输入空间$\mathcal{X}$中对应目标值为1的集合来定义$c$。例如,一个概念可能是某个三角形区域中的点集或者是其指示函数,那么我们可以简单地说我们要学习的概念是一个三角形。一个\textbf{概念类}是我们希望学到的所有可能概念的集合,记为$C$,例如平面中的所有三角形。

学习者考虑某些固定的可能概念集合$H$,称为\textbf{假设集},它和真实的概念类$C$可能不同。样本集合$S=(x_1,x_2,\dots,x_m)$ 从未知分布$D$中独立同分布(i.i.d.)采样得到,并由真实概念$c$赋予标签$(c(x_1),c(x_2),\dots,c(x_m))$。学习者的目标为:利用带标签的样本$S$,从假设集$H$中选出一个假设函数$h_S$,使其相对于真实概念$c$具有最小泛化误差。泛化误差$R(h)$定义如下:
\begin{definition}
\textbf{泛化误差}\\
给定假设函数 $h \in H$,目标概念$c \in C$,某个潜在的分布$D$,$h$的泛化误差定义为:
\begin{equation}
    R(h) = \Pr_{x\sim D}[h(x)\neq c(x)] = \mathop{\rm{E}}_{x\sim D}[\mathbf{1}_{h(x)\neq c(x)}].
\end{equation}
\end{definition}
由于分布$D$和真实概念$c$对学习者而言都是未知的,通常取而代之地计算如下定义的经验误差:
\begin{definition}
\textbf{经验误差}\\
给定假设函数 $h \in H$,目标概念$c \in C$,样本集合$S=(x_1,x_2,\dots,x_m)$,$h$的经验误差定义为:
\begin{equation}
    \hat{R}(h) = \frac{1}{m}\sum_{i=1}^{m}\mathbf{1}_{h(x_i)\neq c(x_i)}.
\end{equation}
\end{definition}
经验误差就是样本集合上的平均误差。事实上,对于某个固定的假设$h$,其在独立同分布(i.i.d)采样的样本集合上的经验误差的期望等于真实误差,即
\begin{equation}
    E[\hat{R}(h)] = R(h)
\end{equation}
因为根据期望的线性性质和样本由独立同分布采样的性质,可得
\begin{align*}
    \mathop{\rm{E}}_{S\sim D^m}[\hat{R}(h)] &= \frac{1}{m}\sum_{i=1}^{m} \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x_i)\neq c(x_i)}]\\
    &= \frac{1}{m}\sum_{i=1}^{m} \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x)\neq c(x)}], \forall x \in S.\\
    &= \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x)\neq c(x)}] \\
    &=  \mathop{\rm{E}}_{S\sim D}[\mathbf{1}_{h(x)\neq c(x)}] \\
    &= R(h).
\end{align*}
下面来介绍(PAC)\textbf{可能近似正确学习}框架。
\begin{definition}
\textbf{可能近似正确学习}\\
一个概念类C是 \textbf{PAC-可学习} 的,如果存在多项式函数$poly(\cdot,\cdot,\cdot,\cdot)$,使得对于所有 $\epsilon,\delta>0$, X 上的任意分布 D,以及任意目标概念 $c \in C$,只要训练样本数 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$,由某个算法 A 训练得到的假设函数 $h_S$ 满足:
\begin{equation}
    \Pr_{S\sim D^m} [R(h_s)\leq \epsilon] \geq 1-\delta.
\end{equation}
更进一步,如果$\mathcal{A}$在多项式时间 $poly(1/\epsilon,1/\delta,n,size(c))$ 内完成,则称$C$是\textbf{有效PAC可学习}的。称算法$\mathcal{A}$为针对概念类C的一个\textbf{PAC学习算法}。
\end{definition}
对于上述定义,有几点值得强调:首先,PAC学习框架和数据的具体分布是无关的,因为定义中没有对数据分布$D$做任何假设;其次,要求用于训练和测试的样本是从真实分布中独立同分布采样得到的,这是保证学习结果具有泛化能力的必要条件;最后,PAC学习框架讨论的是某个概念类的可学习性而不是某个单独的概念。

通常对于非平凡的学习任务,直接设计一个PAC学习算法是困难的,但是找到如下定义稍弱一点的学习算法一般是比较容易的,这在集成学习中较为常用。
\begin{definition}
\textbf{弱学习}\\
一个概念类C是 \textbf{弱PAC可学习} 的,如果存在$\gamma>0$和多项式函数$poly(\cdot,\cdot,\cdot,\cdot)$,使得对于所有 $\epsilon,\delta>0$,输入空间 X 的任意分布 D,以及任意目标概念 $c\in C$,只要训练样本数 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$,由某个算法 A 训练得到的假设函数 $h_S$ 满足:
\begin{equation}
    \Pr_{S\sim D^m} [R(h_s)\leq \frac{1}{2}-\gamma] \geq 1-\delta.
\end{equation}
称算法A为针对概念类C的一个\textbf{弱学习算法},由弱学习算法返回的假设函数h称为\textbf{基分类器}。
\end{definition}


\section{有限假设集的泛化界}
如果某个假设函数$h_S$使得训练误差为0,则称它是一致的。
\subsection{一致情形}
\begin{theorm}
记 $H$ 为从$\mathcal{X}$映射到$\mathcal{Y}$的一个有限的函数集合,算法$\mathcal{A}$ 对于任意概念$c \in H$ 和独立同分布采样的样本集 $S$ 都能返回一个一致的假设函数 $h_S$,即 $\hat{R}(h_S) = 0$。那么对任意 $\epsilon,\delta >0$,不等式 $\Pr_{S\sim D^m}[R(h_S) \leq \epsilon] \geq 1-\delta$ 成立,如果
\begin{equation}
    m \geq \frac{1}{\epsilon}\big( log|H| + log\frac{1}{\delta} \big).
\end{equation}
上述样本复杂度的结果等价于关于泛化界的陈述:对任意$\epsilon,\delta>0$,依概率至少为 $1-\delta$,
\begin{equation}
   R(h_S) \leq \frac{1}{m} \big( log|H| + log\frac{1}{\delta} \big) .
\end{equation}
\end{theorm}
\subsection{不一致情形}
\begin{theorm}
记 $H$ 为一个有限假设集,对任意$\epsilon,\delta>0$,依概率至少为 $1-\delta$,
\begin{equation}
   \forall h\in H, R(h) \leq \hat{R}(h) + \sqrt{\frac{log|H| + log\frac{2}{\delta}}{2m}} .
\end{equation}
\end{theorm}
因此,对于有限假设集 $H$,
\begin{equation*}
   R(h) \leq \hat{R}(h) + \mathcal{O}\bigg(\sqrt{\frac{log|H|}{2m}}\bigg) .
\end{equation*}
由上式可以看出,在不一致情形中,通过学习的到的假设函数 $h$ 的真实误差由两部分组成:经验误差和算法复杂度。它们间存在一个利弊权衡的过程:算法越复杂,经验误差可能越小,但在上式中的第二项可能增加。此外,可以直观地来看,当假设集$H$固定时,如果样本数越多,真实误差和经验误差的差值越小。但和一致情形相比,所需要的样本数是它的平方量级。


\end{document}

	```

猜你喜欢

转载自blog.csdn.net/itnerd/article/details/84937922
PAC
今日推荐