度量学习（Metric Learning）

　　这种方法通过学习出一个能够高效学习的度量空间来实现。这种方法在少量分类应用最为广泛。直观上来讲，如果我们的目标是通过少数样本图像来进行学习，一种简单的方法就是比较需要分类的图像和已有的图像。但在像素空间上来进行图像比较可能会得不到很好的结果。但我们可以训练一个Siamese网络或者是在学习到的度量空间中进行比较。

少量学习(Few-shot Learning)

　　2015年，Brendan Lake等人发表了一篇论文给现代的机器学习方法带来了极大地震动，他可以利用少数甚至一个样本概念学习出新的概念。Lake在文中举了个例子，人类可以仅仅通过观察一张图片（下图的平衡车）来学会”“这是一辆新型的两轮交通工具”“的概念，而机器却无法做到。

快速学习

　　快速学习是实现通用人工智能AGI的必由之路！
　　所谓的通用人工智能就是要让人工智能能够只用同一套算法学习掌握各种各样的任务，而不是单一任务从头训练。因此，通用人工智能必须具备快速学习能力。
　　使用Finetune来学习一个新任务往往效果不佳。

辅助信息、边信息（Side Information）

　　是指利用已有的信息Y辅助对信息X进行编码，可以使得信息X的编码长度更短。
　　例子：假设到马场去赌马，根据每个马的赔率可以得到一个最佳的投资方案。但是如果知道赌马的一些历史数据，比如上几场的胜负情况，那么可以得出一个更优的投资方案。赌马中的历史数据就是边信息。

监督机器学习算法的大原则

　　不过也有一个普遍原则，即所有监督机器学习算法预测建模的基础。
　　机器学习算法被描述为学习一个目标函数 f，该函数将输入变量 X 最好地映射到输出变量 Y：Y = f(X)

特征表达——统计、hash、embedding

　　在机器学习领域的特征，一般是一个id，而且给这个id赋一个值。
　　方式包括：
　　1）这个特征值的表达一般可以通过统计的tf 或其他类似的数字表示。
　　2）比较难于理解的是hash在特征表达里也能起到比较重要的作用。通过对特征运用hash函数，获得对应的值。裁剪、分桶获取对应的位表示。可以用作特征，起到降维的作用。
　　3）还有现在比较流行的是用embedding的方式，将特征映射到一定维度的实数空间里，相比hash不一样的是，这种做法一般是神经网络的迭代方式，而不是hash的非迭代云素昂方式，hash依赖的的hash核函数要设计的比较好（这个门槛比较高）。 embedding发热，主要源于word2vec的盛行，在知识图谱领域演化了很多类似的TransE、TransR等方法。”

embedding，向量化

　　数学上的概念，从一个空间映射到另外一个空间，保留基本属性。
　　embedding 可以理解为比如降维，或者说把一些复杂难以表达的特征用相对来说可以用数学表达或者更易计算的形式来表达的一种映射。比如把单词转化成向量，把数字（的奇偶正负实复等性质）转化成n维矩阵。
　　例如，word embedding就是从一个高维空间（如：维度=词汇表长度=1M)，映射到低维度空间(如300)。就是对特征进行固定长度的编码，比如对词进行固定长度的编码就是大名鼎鼎的word-embedding。

决策矩阵算法

　　决策矩阵算法能系统地分析、识别和评估信息集和值之间关系的表现。这些算法主要用于决策。汽车是否需要制动或左转基于这些算法对物体的下一次运动的识别、分类和预测的置信度。
　　决策矩阵算法是由独立训练的各种决策模型组合起来的模型，在某些方面，将这些预测结合起来进行总体预测，同时降低决策中错误的可能性。
　　参考资料：https://www.ddvip.com/weixin/20170629A01UQ800.html

AdaBoosting就是其中最常用的算法

　　Adaptive Boosting算法也可以简称为AdaBoost，它是可以用于回归或分类的多种学习算法的组合。与任何其他机器学习算法相比，它克服了过度拟合问题，并且通常对异常值和噪声数据非常敏感。为了创建一个复合强大的学习器，AdaBoost需要经过多次迭代，因此，它具有适应性。学习器将重点关注被分类错误的样本，最后再通过加权将弱学习器组合成强学习器。
　　AdaBoost有助于将弱阈值分类器提升为强分类器。上面的图像描绘了如何在一个可以理解性代码的单个文件中实现AdaBoost算法。该函数包含一个弱分类器和boosting组件。弱分类器尝试在数据维度之一中定位理想阈值，将数据分为2类。分类器通过迭代部分调用，并且在每个分类步骤之后，它改变了错误分类样本的权重。因此，它实际创建了级联的弱分类器，但性能像强分类器一样好。
　　AdaBoost的老祖宗可以说是机器学习的一个模型，它的名字叫PAC(Probably Approximately Correct)。

zero-shot learning/zero-shot recognition/ZS

　　问题：当只能每一类只有很少的数据，但同时要求要将识别的范围扩大到很多类。
　　解决的方法之一就是：扩大识别的一种方法是开发能够识别未知类别的模型，而不需要任何训练实例，即零镜头识别/学习。

核范数和规则项参数

　　核范数和规则项参数选择。
　　核范数||W||*是指矩阵奇异值的和，英文称呼叫Nuclear Norm。
　　用来约束Low-Rank（低秩）。

knowledge representation learning

　　人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系。
　　在网络表示形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力的缺点,并受到数据稀疏问题的困扰。
最近,以深度学习为代表的表示学习技术受到广泛关注.”
　　表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习。该技术可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。

各个平台的比赛

　　天池的科学家积分、kaggle的master成就。
　　对这些比赛的分类，主要分为挖掘、图像、语音、NLP 四类。这四类问题需要用到的一些技术或者技巧，彼此之间可以相对独立，每类问题都有各自的套路。

　　对于数据挖掘类问题来说的话，具体是广告、交通、金融还是教育，其实影响不大。主要的共性就是理解数据，理解问题，从数据中找到有用的信息用来预测，这类问题胜负更多的是在特征上。

　　对于图像问题，可能就较少涉及到特征了。图像问题现在主要用到深度学习的相关技术，基于深度学习做了很多改进或者演绎，已经完全不需要在特征层面上去做什么了。

人工智能学派

　　第一个是用逻辑的方法做人工智能，通常我们把它叫做逻辑主义学派，或者叫做符号主义学派。
　　第二个是以连接主义为基本工具，就是用神经元网络，今天的深度学习就是它一个典型的代表。
　　第三个学派，从搞控制论的人，比较主张的一个学派，更多的是做这种自适应和进化、计算。

应用领域的传统算法

　　语音识别采用高斯混合模型（GMM）和隐马尔可夫模型（HMM），
　　物体匹配和识别采用SIFT特征，
　　人脸检测采用Haar-like特征，
　　人脸识别采用LBP特征，
　　行人检测采用HOG特征等。

二元处理机制理论

　　「二元处理机制」认为，人类的推理包括两种不同种类的思考方法。
　　系统 1 是一个快速的、无意识的、自动化的思考模式，它也被称为直觉。
　　系统 2 是一个慢速的、有意识的、显式的、基于规则的推理模式，它被认为是一种进化上的最新进展。
　　在学习完成某项具有挑战性的规划任务（例如棋牌类游戏）时，人类会同时运用这两种处理方式：准确的直觉可以快速地选择有利路线，这使我们慢速的分析推理更加高效。而持续的深入学习又能逐渐提升直觉，从而使更准确的直觉回馈到更强大的分析中，这就形成了一个闭合的学习回路。换言之，人类是通过既快又慢的思考方式来学习的。

专家迭代

　　是一种新的强化学习算法，它受启发于人类思维的二元处理机制理论。
　　ExIt 将强化学习分解为两个独立的子问题：泛化和规划。规划在具体分析的基础上执行，并且在找到了强大的策略之后将之泛化。这将允许智能体做长期规划，并进行更快速的学习，即使在极具挑战的问题也能达到高水平表现。这个训练策略在棋牌类人工智能玩家中是非常强大的，不需要任何人类专家的棋谱就能达到当前最佳性能。

model-free和model-based的区别

　　model-free是指在训练中没有任何的先验的外观或者形状等模型，而model-based是基于人为的外观等模型

迭代算法

　　我理解对于这么大的数据量级使用这种迭代算法，计算代价是非常高的，所以应用到实际场景，系统工程要求也是非常高。

背包优化/背包问题

　　背包优化是一个经典的算法问题。你有两样东西：一个容量为固定重量的背包和一系列不同重量和价值的盒子。目标是装满这个背包使其价值最大化却又不超出它的最大承载重量。自 1972 年以来，这一直是一个著名的数学问题。遗传算法可以很好地解决这一问题，因为它本质上是一个具有大量可能答案的优化问题。
　　为了亲自测试这一算法的工作原理，我们用它解决一个简单的问题：如何破解同事的密码。

标注任务

　　正如你所见，上图里既有猫又有狗。其实还没完呢，里面还有草啊、轮胎啊、石头啊等等。与其将上图仅仅分类为其中一类，倒不如把这张图里面我们所关心的类别都标注出来。比如，给定一张图片，我们希望知道里面是否有猫、是否有狗、是否有草等。给定一个输入，输出不定量的类别，这个就叫做标注任务。

binning/bucketing

　　根据值的范围将一个连续特征转换成多个称为 buckets 或者 bins 二元特征，称为 buckets 或者 bins。例如，将温度表示为单一的浮点特征，可以将温度范围切割为几个离散的 bins。
　　例如：假如给定的温度的敏感度为十分之一度，那么分布在 0.0 度和 15.0 度之间的温度可以放入一个 bin 中，15.1 度到 30.0 度放入第二个 bin，30.1 度到 45.0 度放入第三个 bin。

密集特征（dense feature）

　　大多数取值为非零的一种特征，通常用取浮点值的张量（tensor）表示。
　　和稀疏特征（sparse feature）相反。

一对多（one-vs.-all）

　　给出一个有 N 个可能解决方案的分类问题，一对多解决方案包括 N 个独立的二元分类器——每个可能的结果都有一个二元分类器。
　　例如：一个模型将样本分为动物、蔬菜或矿物，则一对多的解决方案将提供以下三种独立的二元分类器：动物和非动物；蔬菜和非蔬菜；矿物和非矿物。

Distance metric learning方法在大规模图像检索中的应用

　　在图像检索中，其基本问题是如何度量图像间的相关度，这可分解为图像表征学习和距离测度学习。直观地讲，为提高相关性度量质量，我们可以优化图像标注学习，也可以优化距离测度学习。
　　然而，与其他视觉任务不同，图像检索面对的数据库规模大，对检索相应时间苛刻，因此一般采用简单的距离测度，比如L1距离或L2距离，这样方便通过施加稀疏性约束来引入倒排索引结构。所以，在很多图像检索方法中，相对于距离测度学习，大家一般更关注在图像表征学习上。

分析直接回归坐标和回归heat map的优缺点（landmark/joint）以及offset上有什么可以改进的吗?

　　直接回归坐标的缺点在于难以训练，优点在于对于landmark的定位较为精确且更适合3D pose等任务；heat map的优点在于可以利用现有的fully convolutional network的套路进行训练，缺点在于对于landmark的定位较为粗糙且整个网络的计算代价较大。
　　对于cascading中offset的改进可以基于difficulty-aware learning，比如对于每个sample所预测出的offset还取决于这个sample所属的典型错误类型，具体细节可参见我们ECCV 2016关于fashion landmark detection的论文。

机器学习基础--碎片知识点