机器学习入门必须掌握的8个关键词知识

在此之前，你应该已经看过各种机器学习相关的文章，但是关于机器学习到底是什么你可能还不是很了解，所以，这篇文章我主要给大家介绍机器学习入门必须要知道的8个关键词术语。没有太花哨和复杂的东西，希望能让对机器学习感兴趣的同学从中收获有用的知识。

本文主要介绍的8个关键词知识点：

自然语言处理
数据库
计算机视觉
监督学习
无监督学习
强化学习
神经网络
过拟合

1、自然语言处理（NLP）

NLP是机器学习中非常普遍的概念。它让计算机能够读懂人类语言并将其结合起来。

NLP最著名的应用包括:

(a)文本分类

这涉及到将文本分类到不同的类别，或者根据相关性对文本列表进行排序。例如，它可以用来过滤垃圾邮件(通过分析这些邮件是否是垃圾邮件)，或者在商业上它也可以用来识别和提取与竞争对手相关的信息。

(b)情感分析

有了情感分析，计算机就可以通过分析文本字符串来解读情绪，如愤怒、悲伤、高兴等。所以基本上，电脑就能分辨出人们在打字的时候是高兴、悲伤还是生气。这在顾客满意度调查中被广泛使用，用来分析顾客对产品的印象。

(c)信息提取

这主要用于将长段落总结为短文本，很像创建摘要。

(d)命名实体识别

假设您提取了一堆杂乱的个人资料数据，比如地址、电话、姓名等等，这些数据相互混淆。难道您不希望以某种方式清理这些数据，以便神奇地将它们全部标识并匹配到正确的数据类型吗？这正是命名实体提取如何帮助将混乱的信息转换为结构化数据的方法。

(e)语音识别

一个很好的例子，苹果的Siri。

(f)自然语言的理解和产生

NLU是利用计算机将人类的表情转化为计算机的表情。反之，自然语言的生成是将计算机表达转化为人类表达。这项技术非常普遍地用于人类与机器人的交流。

(g)机器翻译

机器翻译是将文本自动翻译成另一种语言(或任何特定的语言)。

2、数据库

数据库是机器学习的必要组成部分。如果您想建立一个机器学习系统，您需要从公共资源中收集数据，或者生成新的数据。用于机器学习的所有数据集组合在一起形成数据库。一般来说，科学家将数据分为三类：

训练数据集：训练数据集用于训练模型。通过训练，机器学习模型将能够识别数据的重要特征。

验证数据集：验证数据集用于修正模型的系数，并对模型进行比较，选出最优的模型。验证数据集与训练数据集不同，不能用于训练部分，否则可能会发生过拟合，影响新数据的生成。

测试数据集：一旦模型被确定，测试数据集将用于测试模型在新数据集中的性能。

在传统的机器学习中，这三个数据集的比例是50/25/25；然而，有些模型不需要太多的调优，或者训练数据集实际上可以是训练和验证(交叉验证)的组合，因此训练/测试的比率可以是70/30。

3.计算机视觉

计算机视觉在人工智能领域主要用来分析和理解图形和视频数据的。我们经常在计算机视觉中遇到的问题包括：

图像分类：图像分类是一项计算机视觉任务，它让计算机识别特定的图像。例如，训练模型识别任何特定位置出现的特定对象。

目标检测：目标检测是让模型从一系列预定义的类别中检测特定的类，并使用矩形将它们圈出来。例如，目标检测可以用来配置人脸识别系统。模型可以检测每个预定义的事项并将它们突出显示出来。

4.监督式学习

监督学习是一个机器学习中的方法，可以由训练资料中学到或建立一个模式（函数）。监督学习算法对训练数据进行分析，生成一个推理函数，用于映射新的例子。一个最优的场景将允许算法正确地确定非观察到的实例类标签。这就要求学习算法以"合理"的方式从现有的资料中一般化到非观察到的情况。

5.无监督学习

无监督机器学习也是机器学习中的一种方法，从“未标记”的数据中推断一个函数来描述隐藏的结构(观察中不包括分类或分类)。由于给学习者的例子是无标记的，因此没有对相关算法输出的结构的准确性进行评估——这是区分无监督学习与监督学习和强化学习的一种方法。

6.强化学习

强化学习与我们刚才讨论的不同。强化学习就像电脑游戏的过程，它的目标是训练电脑在一个环境中采取行动，从而使某些累积奖励最大化。在一系列的实验中，计算机学习一系列的游戏模式，并且在游戏中，计算机可以使用最优的模式来最大化它的奖励。

一个著名的例子是阿尔法围棋，阿尔法围棋打败了最好的人类棋手。近年来，强化学习也被应用到实时投标中。

7.神经网络

神经网络是由构成动物大脑的生物神经网络启发而来的计算系统。人工神经网络(ANN)是由多个层次构成的，就像大脑中有许多相互连接、形成网络的神经网络一样。每一层都是一系列neures的集合。神经网络可以连续处理数据，这意味着只有第一层与输入连接，随着层数的增加，神经网络变得更加复杂。当层次变得非常大时，模型就变成了一个深度学习模型。很难定义具有一定层数的ANN。10年前，ANNs只有3层就够深了，现在我们通常需要20层。

NNs有很多变体，常用的有:

卷积神经网络——它在计算机视觉方面取得了重大突破

递归神经网络——用于处理具有序列特征的数据，如文本和股票价格。

全连接网络——它是处理静态/表格数据最简单的模型。

8、过度拟合

过度拟合是“分析结果与一组特定数据过于接近或准确，因此可能无法拟合其他数据或可靠地预测未来的观测结果”。换句话说，当模型从不足的数据中学习时，就会发生偏差，这可能会对模型产生不利影响。

这是一个普遍而又关键的问题。

当过拟合发生时，通常意味着模型将随机噪声作为数据输入，并将其作为一个重要的信号进行拟合，这就是模型在新数据中表现较差的原因(随机噪声也有偏差)。这在一些复杂的模型中经常发生，如神经网络或加速度梯度模型。

BAZHUAYUdata

发布了85 篇原创文章 · 获赞 28 · 访问量 6万+

私信关注

机器学习入门必须掌握的8个关键词知识

猜你喜欢