Google 机器学习术语表 Part 3 of 4

在监督式学习中，标签指样本的"答案"或"结果"部分。有标签数据集中的每个样本都包含一个或多个特征以及一个标签。例如，在房屋数据集中，特征可能包括卧室数、卫生间数以及房龄，而标签则可能是房价。在垃圾邮件检测数据集中，特征可能包括主题行、发件人以及电子邮件本身，而标签则可能是"垃圾邮件"或"非垃圾邮件"。

12.6. 有标签样本 (labeled example)

包含特征和标签的样本。在监督式训练中，模型从有标签样本中学习规律。

12.7. lambda

与正则化率的含义相同。

（多含义术语，我们在此关注的是该术语在正则化中的定义。）

12.8. 层 (layer)

神经网络中的一组神经元，负责处理一组输入特征，或一组神经元的输出。

此外还指 TensorFlow 中的抽象层。层是 Python 函数，以张量和配置选项作为输入，然后生成其他张量作为输出。当必要的张量组合起来后，用户便可以通过模型函数将结果转换为 Estimator。

12.9. Layers API (tf.layers)

一种 TensorFlow API，用于以层组合的方式构建深度神经网络。通过 Layers API，您可以构建不同类型的层，例如：

通过 tf.layers.Dense 构建全连接层。
通过 tf.layers.Conv2D 构建卷积层。

在编写自定义 Estimator 时，您可以编写"层"对象来定义所有隐藏层的特征。

Layers API 遵循 Keras layers API 规范。也就是说，除了前缀不同以外，Layers API 中的所有函数均与 Keras layers API 中的对应函数具有相同的名称和签名。

12.10. 学习速率 (learning rate)

在训练模型时用于梯度下降的一个标量。在每次迭代期间，梯度下降法都会将学习速率与梯度相乘。得出的乘积称为梯度步长。

学习速率是一个重要的超参数。

12.11. 最小二乘回归 (least squares regression)

一种通过最小化 $L_2$ 损失训练出的线性回归模型。

12.12. 线性回归 (linear regression)

一种回归模型，通过将输入特征进行线性组合输出连续值。

12.13. 逻辑回归 (logistic regression)

一种模型，通过将 S 型函数应用于线性预测，生成分类问题中每个可能的离散标签值的概率。虽然逻辑回归经常用于二元分类问题，但也可用于多类别分类问题（其叫法变为多类别逻辑回归或多项回归）。

12.14. 对数 (logits)

分类模型生成的原始（非标准化）预测向量，通常会传递给标准化函数。如果模型要解决多类别分类问题，则对数通常变成 softmax 函数的输入。之后，softmax 函数会生成一个（标准化）概率向量，对应于每个可能的类别。

此外，对数有时也称为 S 型函数的元素级反函数。如需了解详细信息，请参阅 tf.nn.sigmoid_cross_entropy_with_logits。

12.15. 对数损失函数 (Log Loss)

二元逻辑回归中使用的损失函数。

12.16. 对数几率 (log-odds)

某个事件几率的对数。

如果事件涉及二元概率，则几率指的是成功概率 § 与失败概率 (1-p) 之比。例如，假设某个给定事件的成功概率为 90％，失败概率为 10％。在这种情况下，几率的计算公式如下：

$\text{几率} = \frac{p}{(1- p)} = \frac{0.9}{0.1} = 9$

简单来说，对数几率即几率的对数。按照惯例，"对数"指自然对数，但对数的基数其实可以是任何大于 1 的数。若遵循惯例，上述示例的对数几率应为：

$\text{对数几率} = \ln(9) = 2.2$

对数几率是 S 型函数的反函数。

12.17. 损失 (Loss)

一种衡量指标，用于衡量模型的预测偏离其标签的程度。或者更悲观地说是衡量模型有多差。要确定此值，模型必须定义损失函数。例如，线性回归模型通常将均方误差用作损失函数，而逻辑回归模型则使用对数损失函数。

13. M

13.1. 机器学习 (machine learning)

一种程序或系统，用于根据输入数据构建（训练）预测模型。这种系统会利用学到的模型根据从分布（训练该模型时使用的同一分布）中提取的新数据（以前从未见过的数据）进行实用的预测。机器学习还指与这些程序或系统相关的研究领域。

13.2. 均方误差 (MSE, Mean Squared Error)

每个样本的平均平方损失。MSE 的计算方法是平方损失除以样本数。TensorFlow Playground 显示的"训练损失"值和"测试损失"值都是 MSE。

13.3. 指标 (metric)

您关心的一个数值。可能可以也可能不可以直接在机器学习系统中得到优化。您的系统尝试优化的指标称为目标。

13.4. Metrics API (tf.metrics)

一种用于评估模型的 TensorFlow API。例如，tf.metrics.accuracy 用于确定模型的预测与标签匹配的频率。在编写自定义 Estimator 时，您可以调用 Metrics API 函数来指定应如何评估您的模型。

13.5. 小批次 (mini-batch)

从整批样本内随机选择并在训练或推断过程的一次迭代中一起运行的一小部分样本。小批次的批次大小通常介于 10 到 1000 之间。与基于完整的训练数据计算损失相比，基于小批次数据计算损失要高效得多。

13.6. 小批次随机梯度下降法 (SGD, mini-batch stochastic gradient descent)

一种采用小批次样本的梯度下降法。也就是说，小批次 SGD 会根据一小部分训练数据来估算梯度。Vanilla SGD 使用的小批次的大小为 1。

13.7. ML

机器学习的缩写。

13.8. 模型 (model)

机器学习系统从训练数据学到的内容的表示形式。多含义术语，可以理解为下列两种相关含义之一：

一种 TensorFlow 图，用于表示预测的计算结构。
该 TensorFlow 图的特定权重和偏差，通过训练决定。

13.9. 模型函数 (model function)

Estimator 中的函数，用于实现机器学习训练、评估和推断。例如，模型函数的训练部分可以处理以下任务：定义深度神经网络的拓扑并确定其优化器函数。如果使用预创建的 Estimator，则有人已为您编写了模型函数。如果使用自定义 Estimator，则必须自行编写模型函数。

有关编写模型函数的详细信息，请参阅创建自定义 Estimator。

13.10. 模型训练 (model training)

确定最佳模型的过程。

13.11. 动量 (Momentum)

一种先进的梯度下降法，其中学习步长不仅取决于当前步长的导数，还取决于之前一步或多步的步长的导数。动量涉及计算梯度随时间而变化的指数级加权移动平均值，与物理学中的动量类似。动量有时可以防止学习过程被卡在局部最小的情况。

13.12. 多类别分类 (multi-class classification)

区分两种以上类别的分类问题。例如，枫树大约有 128 种，因此，确定枫树种类的模型就属于多类别模型。反之，仅将电子邮件分为两类（“垃圾邮件"和"非垃圾邮件”）的模型属于二元分类模型。

13.13. 多项分类 (multinomial classification)

与多类别分类的含义相同。

14. N

14.1. NaN 陷阱 (NaN trap)

模型中的一个数字在训练期间变成 NaN，这会导致模型中的很多或所有其他数字最终也会变成 NaN。

NaN 是"非数字"的缩写。

14.2. 负类别 (negative class)

在二元分类中，一种类别称为正类别，另一种类别称为负类别。正类别是我们要寻找的类别，负类别则是另一种可能性。例如，在医学检查中，负类别可以是"非肿瘤"。在电子邮件分类器中，负类别可以是"非垃圾邮件"。另请参阅正类别。

14.3. 神经网络 (neural network)

一种模型，灵感来源于脑部结构，由多个层构成（至少有一个是隐藏层），每个层都包含简单相连的单元或神经元（具有非线性关系）。

14.4. 神经元 (neuron)

神经网络中的节点，通常会接收多个输入值并生成一个输出值。神经元通过将激活函数（非线性转换）应用于输入值的加权和来计算输出值。

14.5. 节点 (node)

多含义术语，可以理解为下列两种含义之一：

隐藏层中的神经元。
TensorFlow 图中的操作。

14.6. 标准化 (normalization)

将实际的值区间转换为标准的值区间（通常为 -1 到 +1 或 0 到 1）的过程。例如，假设某个特征的自然区间是 800 到 6000。通过减法和除法运算，您可以将这些值标准化为位于 -1 到 +1 区间内。

另请参阅缩放。

14.7. 数值数据 (numerical data)

用整数或实数表示的特征。例如，在房地产模型中，您可能会用数值数据表示房子大小（以平方英尺或平方米为单位）。如果用数值数据表示特征，则可以表明特征的值相互之间具有数学关系，并且与标签可能也有数学关系。例如，如果用数值数据表示房子大小，则可以表明面积为 200 平方米的房子是面积为 100 平方米的房子的两倍。此外，房子面积的平方米数可能与房价存在一定的数学关系。

并非所有整数数据都应表示成数值数据。例如，世界上某些地区的邮政编码是整数，但在模型中，不应将整数邮政编码表示成数值数据。这是因为邮政编码 20000 在效力上并不是邮政编码 10000 的两倍（或一半）。此外，虽然不同的邮政编码确实与不同的房地产价值有关，但我们也不能假设邮政编码为 20000 的房地产在价值上是邮政编码为 10000 的房地产的两倍。邮政编码应表示成分类数据。

数值特征有时称为连续特征。

14.8. Numpy

一个开放源代码数学库，在 Python 中提供高效的数组操作。Pandas 建立在 Numpy 之上。

15. O

15.1. 目标 (objective)

算法尝试优化的指标。

15.2. 离线推断 (offline inference)

生成一组预测，存储这些预测，然后根据需求检索这些预测。与在线推断相对。

15.3. 独热编码 (one-hot encoding)

一种稀疏向量，其中：

一个元素设为 1。
所有其他元素均设为 0。

独热编码常用于表示拥有有限个可能值的字符串或标识符。例如，假设某个指定的植物学数据集记录了 15000 个不同的物种，其中每个物种都用独一无二的字符串标识符来表示。在特征工程过程中，您可能需要将这些字符串标识符编码为独热向量，向量的大小为 15000。

15.4. 单样本学习（one-shot learning，通常用于对象分类）

一种机器学习方法，通常用于对象分类，旨在通过单个训练样本学习有效的分类器。

另请参阅少量样本学习。

15.5. 一对多 (one-vs.-all)

假设某个分类问题有 N 种可能的解决方案，一对多解决方案将包含 N 个单独的二元分类器 - 一个二元分类器对应一种可能的结果。例如，假设某个模型用于区分样本属于动物、蔬菜还是矿物，一对多解决方案将提供下列三个单独的二元分类器：

动物和非动物
蔬菜和非蔬菜
矿物和非矿物

15.6. 在线推断 (online inference)

根据需求生成预测。与离线推断相对。

15.7. 操作 (op, Operation)

TensorFlow 图中的节点。在 TensorFlow 中，任何创建、操纵或销毁张量的过程都属于操作。例如，矩阵相乘就是一种操作，该操作以两个张量作为输入，并生成一个张量作为输出。

15.8. 优化器 (optimizer)

梯度下降法的一种具体实现。TensorFlow 的优化器基类是 tf.train.Optimizer。不同的优化器可能会利用以下一个或多个概念来增强梯度下降法在指定训练集中的效果：

动量 (Momentum)
更新频率（AdaGrad = ADAptive GRADient descent；Adam = ADAptive with Momentum；RMSProp）
稀疏性/正则化 (Ftrl)
更复杂的数学方法（Proximal，等等）

甚至还包括 NN 驱动的优化器。

15.9. 离群值 (outlier)

与大多数其他值差别很大的值。在机器学习中，下列所有值都是离群值。

绝对值很高的权重。
与实际值相差很大的预测值。
值比平均值高大约 3 个标准偏差的输入数据。

离群值常常会导致模型训练出现问题。

15.10. 输出层 (output layer)

神经网络的"最后"一层，也是包含答案的层。

15.11. 过拟合 (overfitting)

创建的模型与训练数据过于匹配，以致于模型无法根据新数据做出正确的预测。

16. P

17. 1. Pandas

面向列的数据分析 API。很多机器学习框架（包括 TensorFlow）都支持将 Pandas 数据结构作为输入。请参阅 Pandas 文档。

17.2. 参数 (parameter)

机器学习系统自行训练的模型的变量。例如，权重就是一种参数，它们的值是机器学习系统通过连续的训练迭代逐渐学习到的。与超参数相对。

17.3. 参数服务器 (PS, Parameter Server)

一种作业，负责在分布式设置中跟踪模型参数。

17.4. 参数更新 (parameter update)

在训练期间（通常是在梯度下降法的单次迭代中）调整模型参数的操作。

17.5. 偏导数 (partial derivative)

一种导数，除一个变量之外的所有变量都被视为常量。例如，f(x, y) 对 x 的偏导数就是 f(x) 的导数（即，使 y 保持恒定）。f 对 x 的偏导数仅关注 x 如何变化，而忽略公式中的所有其他变量。

17.6. 划分策略 (partitioning strategy)

在参数服务器间分割变量的算法。

17.7. 性能 (performance)

多含义术语，具有以下含义：

在软件工程中的传统含义。即：相应软件的运行速度有多快（或有多高效）？
在机器学习中的含义。在机器学习领域，性能旨在回答以下问题：相应模型的准确度有多高？即模型在预测方面的表现有多好？

17.8. 困惑度 (perplexity)

一种衡量指标，用于衡量模型能够多好地完成任务。例如，假设任务是读取用户使用智能手机键盘输入字词时输入的前几个字母，然后列出一组可能的完整字词。此任务的困惑度 § 是：为了使列出的字词中包含用户尝试输入的实际字词，您需要提供的猜测项的个数。

困惑度与交叉熵的关系如下：

$p = 2^{-\text{交叉熵}}$

17.9. 流水线 (pipeline)

机器学习算法的基础架构。流水线包括收集数据、将数据放入训练数据文件、训练一个或多个模型，以及将模型导出到生产环境。

17.10. 池化 (pooling)

将一个或多个由前趋的卷积层创建的矩阵压缩为较小的矩阵。池化通常是取整个池化区域的最大值或平均值。以下面的 3x3 矩阵为例：

池化运算与卷积运算类似：将矩阵分割为多个切片，然后按步长逐个运行卷积运算。例如，假设池化运算按 1x1 步长将卷积矩阵分割为 2x2 个切片。如下图所示，进行了四个池化运算。假设每个池化运算都选择该切片中四个值的最大值：

池化有助于在输入矩阵中实现平移不变性。

对于视觉应用来说，池化的更正式名称为空间池化。时间序列应用通常将池化称为时序池化。按照不太正式的说法，池化通常称为下采样或降采样。

17.11. 正类别 (positive class)

在二元分类中，两种可能的类别分别被标记为正类别和负类别。正类别结果是我们要测试的对象。（不可否认的是，我们会同时测试这两种结果，但只关注正类别结果。）例如，在医学检查中，正类别可以是"肿瘤"。在电子邮件分类器中，正类别可以是"垃圾邮件"。

与负类别相对。

17.12. 精确率 (precision)

一种分类模型指标。精确率指模型正确预测正类别的频率，即：

$\text{精确率} = \frac{正例数}{正例数 + 假正例数}$

17.13. 预测 (prediction)

模型在收到输入样本后的输出。

17.14. 预测偏差 (prediction bias)

一种值，用于表明预测平均值与数据集中标签的平均值相差有多大。

17.15. 预创建的 Estimator (pre-made Estimator)

其他人已建好的 Estimator。TensorFlow 提供了一些预创建的 Estimator，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。您可以按照这些说明构建自己预创建的 Estimator。

17.16. 预训练模型 (pre-trained model)

已经过训练的模型或模型组件（例如嵌套）。有时，您需要将预训练的嵌套馈送到神经网络。在其他时候，您的模型将自行训练嵌套，而不依赖于预训练的嵌套。

17.17. 先验信念 (prior belief)

在开始采用相应数据进行训练之前，您对这些数据抱有的信念。例如， $L_2$ 正则化依赖的先验信念是权重应该很小且应以 0 为中心呈正态分布。

18. Q

18.1. 队列 (queue)

一种 TensorFlow 操作，用于实现队列数据结构。通常用于 I/O 中。

联系邮箱：[email protected]

CSDN：https://me.csdn.net/qq_41729780

知乎：https://zhuanlan.zhihu.com/c_1225417532351741952

公众号：复杂网络与机器学习

欢迎关注/转载，有问题欢迎通过邮箱交流。

在这里插入图片描述