PAC学习框架【latex原稿】

pdf编译结果

\documentclass[a4paper,11pt]{ctexart}
\title{PAC学习框架}
\author{itnerd}
\date{\today}

\usepackage{algorithm}
\usepackage{algorithmic}
\usepackage{geometry}
\usepackage{cite}
\usepackage{latexsym}
\usepackage{amsmath}
\usepackage{amsfonts}
\newtheorem{definition}{定义}
\newtheorem{theorm}{定理}
\newtheorem{proof}{证明}

\CTEXsetup[name={第,节}]{section}
\CTEXsetup[beforeskip = {20bp plus 1ex minus 0.2ex}]{section}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{section}
\CTEXsetup[format = {\zihao{4}\bfseries}]{section}
\CTEXsetup[name={第,小节}]{subsection}
\CTEXsetup[beforeskip = {12bp plus 1ex minus 0.2ex}]{subsection}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{subsection}
\CTEXsetup[format = {\fontsize{13bp}{15.6bp}\selectfont\bfseries}]{subsection}
\CTEXsetup[beforeskip = {12bp plus 1ex minus 0.2ex}]{subsubsection}
\CTEXsetup[afterskip = {6bp plus 0.2ex}]{subsubsection}
\CTEXsetup[format = {\zihao{-4}\bfseries}]{subsubsection}
\geometry{
	a4paper, hmargin = 2.6cm, top = 2.92cm, bottom = 3.03cm,
	headheight = 0.45cm, headsep = 0.55cm, footskip = 1.05cm
}


\begin{document}
\maketitle

\pagestyle{plain}

\section{PAC学习模型}
首先，我们需要引入一些记号和定义。记输入空间为 $\mathcal{X}$, 包含所有可能的样本。记所有的标签或者目标值为 $\mathcal{Y}$,假定我们考虑二分类问题，则有$\mathcal{Y} = \{0,1\}$。一个\textbf{概念} $c:\mathcal{X} \rightarrow \mathcal{Y}$ 是指一个从$\mathcal{X}$到$\mathcal{Y}$的映射，既然$\mathcal{Y} = \{0,1\}$，我们可以用输入空间$\mathcal{X}$中对应目标值为1的集合来定义$c$。例如，一个概念可能是某个三角形区域中的点集或者是其指示函数，那么我们可以简单地说我们要学习的概念是一个三角形。一个\textbf{概念类}是我们希望学到的所有可能概念的集合，记为$C$，例如平面中的所有三角形。

学习者考虑某些固定的可能概念集合$H$，称为\textbf{假设集}，它和真实的概念类$C$可能不同。样本集合$S=(x_1,x_2,\dots,x_m)$ 从未知分布$D$中独立同分布（i.i.d.）采样得到，并由真实概念$c$赋予标签$(c(x_1),c(x_2),\dots,c(x_m))$。学习者的目标为：利用带标签的样本$S$，从假设集$H$中选出一个假设函数$h_S$，使其相对于真实概念$c$具有最小泛化误差。泛化误差$R(h)$定义如下：
\begin{definition}
\textbf{泛化误差}\\
给定假设函数 $h \in H$，目标概念$c \in C$，某个潜在的分布$D$，$h$的泛化误差定义为：
\begin{equation}
    R(h) = \Pr_{x\sim D}[h(x)\neq c(x)] = \mathop{\rm{E}}_{x\sim D}[\mathbf{1}_{h(x)\neq c(x)}].
\end{equation}
\end{definition}
由于分布$D$和真实概念$c$对学习者而言都是未知的，通常取而代之地计算如下定义的经验误差：
\begin{definition}
\textbf{经验误差}\\
给定假设函数 $h \in H$，目标概念$c \in C$，样本集合$S=(x_1,x_2,\dots,x_m)$，$h$的经验误差定义为：
\begin{equation}
    \hat{R}(h) = \frac{1}{m}\sum_{i=1}^{m}\mathbf{1}_{h(x_i)\neq c(x_i)}.
\end{equation}
\end{definition}
经验误差就是样本集合上的平均误差。事实上，对于某个固定的假设$h$,其在独立同分布（i.i.d）采样的样本集合上的经验误差的期望等于真实误差，即
\begin{equation}
    E[\hat{R}(h)] = R(h)
\end{equation}
因为根据期望的线性性质和样本由独立同分布采样的性质，可得
\begin{align*}
    \mathop{\rm{E}}_{S\sim D^m}[\hat{R}(h)] &= \frac{1}{m}\sum_{i=1}^{m} \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x_i)\neq c(x_i)}]\\
    &= \frac{1}{m}\sum_{i=1}^{m} \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x)\neq c(x)}], \forall x \in S.\\
    &= \mathop{\rm{E}}_{S\sim D^m}[\mathbf{1}_{h(x)\neq c(x)}] \\
    &=  \mathop{\rm{E}}_{S\sim D}[\mathbf{1}_{h(x)\neq c(x)}] \\
    &= R(h).
\end{align*}
下面来介绍（PAC）\textbf{可能近似正确学习}框架。
\begin{definition}
\textbf{可能近似正确学习}\\
一个概念类C是 \textbf{PAC-可学习} 的，如果存在多项式函数$poly(\cdot,\cdot,\cdot,\cdot)$，使得对于所有 $\epsilon,\delta>0$， X 上的任意分布 D，以及任意目标概念 $c \in C$，只要训练样本数 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$，由某个算法 A 训练得到的假设函数 $h_S$ 满足：
\begin{equation}
    \Pr_{S\sim D^m} [R(h_s)\leq \epsilon] \geq 1-\delta.
\end{equation}
更进一步，如果$\mathcal{A}$在多项式时间 $poly(1/\epsilon,1/\delta,n,size(c))$ 内完成，则称$C$是\textbf{有效PAC可学习}的。称算法$\mathcal{A}$为针对概念类C的一个\textbf{PAC学习算法}。
\end{definition}
对于上述定义，有几点值得强调：首先，PAC学习框架和数据的具体分布是无关的，因为定义中没有对数据分布$D$做任何假设；其次，要求用于训练和测试的样本是从真实分布中独立同分布采样得到的，这是保证学习结果具有泛化能力的必要条件；最后，PAC学习框架讨论的是某个概念类的可学习性而不是某个单独的概念。

通常对于非平凡的学习任务，直接设计一个PAC学习算法是困难的，但是找到如下定义稍弱一点的学习算法一般是比较容易的，这在集成学习中较为常用。
\begin{definition}
\textbf{弱学习}\\
一个概念类C是 \textbf{弱PAC可学习} 的，如果存在$\gamma>0$和多项式函数$poly(\cdot,\cdot,\cdot,\cdot)$，使得对于所有 $\epsilon,\delta>0$，输入空间 X 的任意分布 D，以及任意目标概念 $c\in C$，只要训练样本数 $m\geq poly(1/\epsilon,1/\delta,n,size(c))$，由某个算法 A 训练得到的假设函数 $h_S$ 满足：
\begin{equation}
    \Pr_{S\sim D^m} [R(h_s)\leq \frac{1}{2}-\gamma] \geq 1-\delta.
\end{equation}
称算法A为针对概念类C的一个\textbf{弱学习算法}，由弱学习算法返回的假设函数h称为\textbf{基分类器}。
\end{definition}


\section{有限假设集的泛化界}
如果某个假设函数$h_S$使得训练误差为0，则称它是一致的。
\subsection{一致情形}
\begin{theorm}
记 $H$ 为从$\mathcal{X}$映射到$\mathcal{Y}$的一个有限的函数集合，算法$\mathcal{A}$ 对于任意概念$c \in H$ 和独立同分布采样的样本集 $S$ 都能返回一个一致的假设函数 $h_S$，即 $\hat{R}(h_S) = 0$。那么对任意 $\epsilon,\delta >0$，不等式 $\Pr_{S\sim D^m}[R(h_S) \leq \epsilon] \geq 1-\delta$ 成立，如果
\begin{equation}
    m \geq \frac{1}{\epsilon}\big( log|H| + log\frac{1}{\delta} \big).
\end{equation}
上述样本复杂度的结果等价于关于泛化界的陈述：对任意$\epsilon,\delta>0$，依概率至少为 $1-\delta$，
\begin{equation}
   R(h_S) \leq \frac{1}{m} \big( log|H| + log\frac{1}{\delta} \big) .
\end{equation}
\end{theorm}
\subsection{不一致情形}
\begin{theorm}
记 $H$ 为一个有限假设集，对任意$\epsilon,\delta>0$，依概率至少为 $1-\delta$，
\begin{equation}
   \forall h\in H, R(h) \leq \hat{R}(h) + \sqrt{\frac{log|H| + log\frac{2}{\delta}}{2m}} .
\end{equation}
\end{theorm}
因此，对于有限假设集 $H$，
\begin{equation*}
   R(h) \leq \hat{R}(h) + \mathcal{O}\bigg(\sqrt{\frac{log|H|}{2m}}\bigg) .
\end{equation*}
由上式可以看出，在不一致情形中，通过学习的到的假设函数 $h$ 的真实误差由两部分组成:经验误差和算法复杂度。它们间存在一个利弊权衡的过程：算法越复杂，经验误差可能越小，但在上式中的第二项可能增加。此外，可以直观地来看，当假设集$H$固定时，如果样本数越多，真实误差和经验误差的差值越小。但和一致情形相比，所需要的样本数是它的平方量级。


\end{document}

	```
PAC学习框架【latex原稿】

猜你喜欢