2.2 变量类型和术语

这是一篇有关《统计学习基础》，原书名The Elements of Statistical Learning的学习笔记，该书学习难度较高，有很棒的学者将其翻译成中文并放在自己的个人网站上，翻译质量非常高，本博客中有关翻译的内容都是出自该学者的网页，个人解读部分才是自己经过查阅资料和其他学者的学习笔记，结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件，可在作者GitHub上查看下载。

原文	The Elements of Statistical Learning
翻译	szcf-weiya
时间	2018-08-21
解读	Hytn Chen
更新	2020-01-05

翻译原文

这些例子中的输出变量本质都不相同．在预测葡萄糖的例子中，输出变量是 定量 (quantitative) 的度量，有些度量大于其他的，而且测量结果在数值上相近也意味着结果本质上相近．著名的 R.A.Fisher 分辨鸢尾花种类例子中，输出变量（鸢尾花的种类）是 定性的 (qualitative) 而且假设取值为有限集合 ${\mathcal{G}}=\{Virginica,Setosa,Versicolor\}$ ．在手写数字的例子中，输出变量的取值是 $10$ 个不同数字之一： ${\mathcal{G}}=\{0,1,...,9\}$ ．在这些例子中分类没有明显的顺序，而且事实上经常用描述性标签而不是数字来代替这些分类．定性变量也被称为 类别型 (categories) 或者 离散 (discrete) 型变量，也被称作 因子 (factors)．

对于两种类型的输出变量，考虑使用输入变量去预测输出变量是有意义的．给定今天和昨天特定的大气测量结果，我们想要预测明天的臭氧层．给定手写数字的数字化图片中像素的灰度值，我们想要预测该图片是属于哪一个类．

输出类型的差别导致对预测的命名规定：当我们预测定量的输出时被称为 回归 (regression)，当我们预测定性的输出时被称为 分类(classification)．我们将会看到这两个任务有很多的共同点，特别地，两者都可以看成是函数逼近．

输入变量也有各种各样的测量类型；我们可以有定性的输入变量和定量的输入变量两者中的一些变量．这些也导致了预测中方法类型的不同：一些方法更自然地定义为定量的输入变量，一些方法更自然地定义为定性的输入变量，还有一些是两者都可以的．

第三种变量类型是 有序分类 (ordered categorical)，如 小(small)、中 (medium) 和 大 (large)，在这些值之间存在顺序，但是没有合适的度量概念（中与小之间的差异不必和大与中间的差异相等）．这将在第四章中讨论．

定性的变量常用数字编码来表示．最简单的情形是只有两个分类，比如说“成功”与“失败”，“生存”与“死亡”．这些经常用一位二进制数来表示，比如 $0$ 或 $1$ ，或者用 $-1$ 和 $1$ 来表示．因为一些显然的原因，这些数字编码有时被称作 指标 (targets)．当存在超过两个的类别，存在其他可行的选择．最有用并且最普遍使用的编码是 虚拟变量(dummy variables)．这里有 $K$ 个水平的定性变量被一个 $K$ 位的二进制变量表示，每次只有一个在开启状态．尽管更简洁的编码模式也是可能的，但虚拟变量在因子的层次中是对称的．

我们将经常把输入变量用符号 $X$ 来表示．如果 $X$ 是一个向量，则它的组成部分可以用下标 $X_j$ 来取出．定量的输出变量用 $Y$ 来表示，对于定性的输出变量采用 $G$ 来表示（group 的意思）．当指一般的变量，我们使用大写字母 $X,Y,G$ 来表示，对于观测值我们用小写字母来表示；因此 $X$ 的第 $i$ 个观测值记作 $x_i$ （其中， $x_i$ 要么是标量要么是向量）矩阵经常用粗体的大写字母来表示；举个例子， $N$ 个 $p$ 维输入向量 $x_i,i=1,\cdots,N$ 可以表示成 $N\times p$ 的矩阵 $\mathbf{X}$ ．一般地，向量不是粗体，除非它们有 $N$ 个组成成分；这个约定区分了包含变量 $X_j$ 的所有观测值的 $N$ 维向量 $\mathbf{x}_j$ 和第 $i$ 个观测值的 $p$ 维向量 $x_i$ ．因为所有的向量都假定为列向量， $\mathbf{X}$ 的第 $i$ 行是 $x_i$ 的转置 $x_i^T$ ．

现在我们可以不严谨地把学习叙述成如下：给定输入向量 $X$ ，对输出 $Y$ 做出一个很好的估计，记为 $\hat{Y}$ ．如果 $Y$ 取值为 $\mathbf{R}$ ，则 $\hat{Y}$ 取值也是 $\mathbf{R}$ ；同样地，对于类别型输出， $\hat{G}$ 取值为对应 $G$ 取值的集合 $\mathcal{G}$ ．

对于只有两种类别的 $G$ ，一种方式是把二进制编码记为 $Y$ ，然后把它看成是定量的输出变量．预测值 $\hat{Y}$ 一般落在 $[0,1]$ 之间，而且我们可以根据 $\hat{y} > 0.5$ 来赋值给 $\hat{G}$ ．这种方式可以一般化为有 $K$ 个水平的定性的输出变量．

我们需要数据去构建预测规则，经常是大量的数据．因此我们假设有一系列可用的测量值 $(x_i,y_i)$ 或 $(x_i,g_i),i=1,\cdots,N$ ，这也称之为 训练数据 (training data)，将利用这些训练数据去构建我们的预测规则．

个人解读

文中高亮标出的地方有两处，第一处是函数逼近的概念，这是一个很好的解读角度。其实没有激活函数的神经网络就可以被看作为一个线性函数 $f(x)$ ，而不论是线性还是非线性，最终目的就是让函数的输出结果逼近真实值。

第二处是虚拟变量的概念，这里的虚拟变量实际上就是现今人们熟知的one-hot编码。

中间公式符号较多的那段有些不易理解，其实总结下来就是：

对于一个输入变量，可以有多个特征即多个维度，这些特征就是文中的组成部分，也就是 $X_j$ ，个人认为作者对于输入的理解就是一个矩阵，行代表不同的多个观测值，列代表不同的多个特征。而对于向量需要用小写字母表示，矩阵需要用大写字母表示。

Nstar-LDS

发布了33 篇原创文章 · 获赞 45 · 访问量 2537

私信关注

ESL2.2 变量类型和术语学习笔记

2.2 变量类型和术语

翻译原文

个人解读

猜你喜欢