PRML读书随笔(1)

　　这一系列随笔，是一个并没有足够数学基础的人写的——这注定会导致很多不足。但笔者也以为，能以这样的身份去读书，也是一个充满挑战和新奇的角度，说不定有一番别样的收获。

“……每个数字对应一个 28 × 28 像素的图像，因此可以表示为一个由784个实数组成的向量 x 。目标是建立一个机器，能够以这样的向量 x 作为输入，以数字0到9为输出。”

　　我虽然见过许多这种表述，但目前依然不能很好的适应。习惯上，我们都把x当成一个数值，一个标量（这个称呼尚且陌生）——即使学习了向量和矩阵的知识，知道它们都可以用字母表示（矩阵是大写字母）。在学习机器学习的过程中，这种对字母表示向量的直觉是理应尽早树立的——如何才能有这种直觉？我所能想到的只有多练习，在草稿纸上随便写写画画，比如……

向量.png

“运行机器学习算法的结果可以被表示为一个函数 y(x) ，它以一个新的数字的图像 x 为输入，产生向量 y ，与目标向量的形式相同。函数 y(x) 的精确形式在训练（ training ）阶段被确定，这个阶段也被称为学习（ learning ）阶段，以训练数据为基础。”

　　引文中的“函数”，也是一个全新的概念。以往接触的函数，都是以数为自变量——而这里所说的函数，是以向量为自变量，所以严格地说这甚至不该叫“函数”（但是能怎样呢？只能暂且这么称呼了）。并且“以向量为自变量”不同于“多元函数”，这里的函数依然只有一个自变量，即使它们看起来完全等价——不过如果某个函数更进一步，把矩阵当做自变量，就无法与多元函数对应了。并且这里的“函数”是一个抽象概念，它不仅仅是不能画出图像，它甚至没有图像，因为这里的函数“还没有确定”，用函数这一词汇，仅仅是表示输入和输出直接存在唯一对应关系，然后为这个关系赋予一个名称，看起来就像传统的反比例函数或三角函数一样——然而它仅仅表示一种对应关系【存在】。

“对于大部分实际应用，原始输入向量通常被预处理（ pre-processed ），变换到新的变量空间。人们期望在新的变量空间中模式识别问题可以更容易地被解决。例如，在数字识别的问题中，数字的图像通常被转化缩放，使得每个数字能够被包含到一个固定大小的盒子中。”

　　如果是说“对图像的预处理”，那么这无疑是形象而易于理解的；但为了有一种统一的说法，总结后的句子难免晦涩，如同著名的“几何学是研究空间在变换群下不变性质的一门学科”（——埃尔朗根纲领，克莱因）。实际理解中，具体的例子几乎是必要的，本书的作者为了解释这一总结，也及早给出了例子。但总结也依然是必要的，如果只有例子，也许只有说话者知道其中所强调的共性（技术交流中这甚至是常见的）。——另外，这里的“变换”也相当反直觉，函数给人的印象一直是“连续的”，“光滑的”，即使这是解析函数才有的性质，我们还是习惯把狄利克雷函数看做另类。当自变量成为了向量，连“输入向量，输出向量的长度”都可以算函数，此时要如何适应这些表述呢？这次我真的没有办法了，也许多见一些例子就好吧，虽然奇怪的函数可以有任意多种，总会遇到诡异的函数——不过假如用到的不多，靠经验弥补直觉还是很有效的。

　　先写这么多吧。这些是PRML的第一页内容，的一小部分……

（2018-6-18 于地球）

猜你喜欢