ESL2.2 变量类型和术语学习笔记

2.2 变量类型和术语

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。
有关ESL更多的学习笔记的markdown文件,可在作者GitHub上查看下载。

原文 The Elements of Statistical Learning
翻译 szcf-weiya
时间 2018-08-21
解读 Hytn Chen
更新 2020-01-05

翻译原文

这些例子中的输出变量本质都不相同.在预测葡萄糖的例子中,输出变量是 定量 (quantitative) 的度量,有些度量大于其他的,而且测量结果在数值上相近也意味着结果本质上相近.著名的 R.A.Fisher 分辨鸢尾花种类例子中,输出变量(鸢尾花的种类)是 定性的 (qualitative) 而且假设取值为有限集合 G = { V i r g i n i c a , S e t o s a , V e r s i c o l o r } {\mathcal{G}}=\{Virginica,Setosa,Versicolor\} .在手写数字的例子中,输出变量的取值是 10 10 个不同数字之一: G = { 0 , 1 , . . . , 9 } {\mathcal{G}}=\{0,1,...,9\} .在这些例子中分类没有明显的顺序,而且事实上经常用描述性标签而不是数字来代替这些分类.定性变量也被称为 类别型 (categories) 或者 离散 (discrete) 型变量,也被称作 因子 (factors)

对于两种类型的输出变量,考虑使用输入变量去预测输出变量是有意义的.给定今天和昨天特定的大气测量结果,我们想要预测明天的臭氧层.给定手写数字的数字化图片中像素的灰度值,我们想要预测该图片是属于哪一个类.

输出类型的差别导致对预测的命名规定:当我们预测定量的输出时被称为 回归 (regression),当我们预测定性的输出时被称为 分类(classification).我们将会看到这两个任务有很多的共同点,特别地,两者都可以看成是函数逼近

输入变量也有各种各样的测量类型;我们可以有定性的输入变量和定量的输入变量两者中的一些变量.这些也导致了预测中方法类型的不同:一些方法更自然地定义为定量的输入变量,一些方法更自然地定义为定性的输入变量,还有一些是两者都可以的.

第三种变量类型是 有序分类 (ordered categorical),如 小(small)中 (medium)大 (large),在这些值之间存在顺序,但是没有合适的度量概念(中与小之间的差异不必和大与中间的差异相等).这将在第四章中讨论.

定性的变量常用数字编码来表示.最简单的情形是只有两个分类,比如说“成功”与“失败”,“生存”与“死亡”.这些经常用一位二进制数来表示,比如 0 0 1 1 ,或者用 1 -1 1 1 来表示.因为一些显然的原因,这些数字编码有时被称作 指标 (targets).当存在超过两个的类别,存在其他可行的选择.最有用并且最普遍使用的编码是 虚拟变量(dummy variables).这里有 K K 个水平的定性变量被一个 K K 位的二进制变量表示,每次只有一个在开启状态.尽管更简洁的编码模式也是可能的,但虚拟变量在因子的层次中是对称的.

我们将经常把输入变量用符号 X X 来表示.如果 X X 是一个向量,则它的组成部分可以用下标 X j X_j 来取出.定量的输出变量用 Y Y 来表示,对于定性的输出变量采用 G G 来表示(group 的意思).当指一般的变量,我们使用大写字母 X , Y , G X,Y,G 来表示,对于观测值我们用小写字母来表示;因此 X X 的第 i i 个观测值记作 x i x_i (其中, x i x_i 要么是标量要么是向量)矩阵经常用粗体的大写字母来表示;举个例子, N N p p 维输入向量 x i , i = 1 , , N x_i,i=1,\cdots,N 可以表示成 N × p N\times p 的矩阵 X \mathbf{X} .一般地,向量不是粗体,除非它们有 N N 个组成成分;这个约定区分了包含变量 X j X_j 的所有观测值的 N N 维向量 x j \mathbf{x}_j 和第 i i 个观测值的 p p 维向量 x i x_i .因为所有的向量都假定为列向量, X \mathbf{X} 的第 i i 行是 x i x_i 的转置 x i T x_i^T

现在我们可以不严谨地把学习叙述成如下:给定输入向量 X X ,对输出 Y Y 做出一个很好的估计,记为 Y ^ \hat{Y} .如果 Y Y 取值为 R \mathbf{R} ,则 Y ^ \hat{Y} 取值也是 R \mathbf{R} ;同样地,对于类别型输出, G ^ \hat{G} 取值为对应 G G 取值的集合 G \mathcal{G}

对于只有两种类别的 G G ,一种方式是把二进制编码记为 Y Y ,然后把它看成是定量的输出变量.预测值 Y ^ \hat{Y} 一般落在 [ 0 , 1 ] [0,1] 之间,而且我们可以根据 y ^ > 0.5 \hat{y} > 0.5 来赋值给 G ^ \hat{G} .这种方式可以一般化为有 K K 个水平的定性的输出变量.

我们需要数据去构建预测规则,经常是大量的数据.因此我们假设有一系列可用的测量值 ( x i , y i ) (x_i,y_i) ( x i , g i ) , i = 1 , , N (x_i,g_i),i=1,\cdots,N ,这也称之为 训练数据 (training data),将利用这些训练数据去构建我们的预测规则.

个人解读

文中高亮标出的地方有两处,第一处是函数逼近的概念,这是一个很好的解读角度。其实没有激活函数的神经网络就可以被看作为一个线性函数 f ( x ) f(x) ,而不论是线性还是非线性,最终目的就是让函数的输出结果逼近真实值。

第二处是虚拟变量的概念,这里的虚拟变量实际上就是现今人们熟知的one-hot编码。

中间公式符号较多的那段有些不易理解,其实总结下来就是:

对于一个输入变量,可以有多个特征即多个维度,这些特征就是文中的组成部分,也就是 X j X_j ,个人认为作者对于输入的理解就是一个矩阵代表不同的多个观测值,代表不同的多个特征。而对于向量需要用小写字母表示,矩阵需要用大写字母表示。

发布了33 篇原创文章 · 获赞 45 · 访问量 2537

猜你喜欢

转载自blog.csdn.net/nstarLDS/article/details/103855145