机器学习实战 | 三 | 机器学习概览

机器学习概览

几十年前的光学字符识别(OCR)、20世纪90年代的席卷了世界垃圾邮件过滤器、从更好的推荐系统到语音识别

监督式与无监督式学习,在线学习与批量学习,基于实例的与基于模型的学习。

介绍一个经典的机器学习项目的工作流程,讨论你可能会面临的主要挑战,并介绍如何对机器学习系统进行评估和微调。

介绍一些基本术语。

本章的内容具有高度的概括性,代码量较少,所述的知识都很简单。

什么是机器学习

机器学习是一门能够让编程计算机从数据中学习的计算机科学。

训练用来学习的这些示例,我们称之为训练集。

每一个训练示例称为训练实例或者是训练样本。

我们可以使用被正确分类的邮件的比率来衡量,这个特殊的性能衡量标准被称为精度,经常用来衡量分类任务。

为什么使用机器学习

试想用传统的方法编写一个垃圾邮件过滤器,该如何做?

  1. 标记垃圾邮件中经常出现的关键词,或者在发件人和邮件正文中发现一些其他模式。
  2. 编写检查每一个模式的检测算法,如果检测到了一定数量的这类模式,就会将此邮件标记为垃圾邮件。
  3. 不停重复上面的两个过程,直到标记的效果足够好。

解决这些问题并不算简单,程序可能会变成一长串复杂的规则,导致很难维护。

相比之下,基于机器学习技术的垃圾邮件过滤器,通过对比垃圾邮件示例和常规邮件示例,自动检测垃圾邮件中异常,频繁的单词模式,自动学习哪些单词和短语可以作为垃圾邮件分类的预测预测因素。

这样的程序简短很多而且便于维护。

基于机器学习技术的垃圾邮件过滤器也可以自动适应变化,自动标记垃圾邮件中新出现的模式,而不需要人为修改规则。

机器学习另一个闪光点,是针对那些使用传统方法过于复杂——甚至根本不存在已知算法的问题,例如语音识别。迄今为止,最好的解决方案是写一个能够自己学习的算法,然后针对每个字给它提供许多录音示例。

机器学习算法能够帮助人类学习:通过检视机器学习算法以了解它们学到了什么。有时候,这可能会揭示一些人类未曾意识到的关联性或者新趋势,从而帮助我们更好的解决问题。

应用机器学习技术来挖掘海量数据,可以帮助我们发现那些此前并非立见端倪的模式,这个过程被称为数据挖掘。

简而言之,机器学习的伟大之处在于:

  • 对于那些现有解决方案需要大量手动调整或者是规则列表超长的问题,机器学习算法可以简化代码并且提升执行效率。
  • 对于那些现有解决方案根本无法解决的问题,机器学习算法可以提供较好地解决方案。
  • 对于环境波动,机器学习算法可以很快地适应新的数据。
  • 从复杂的问题和海量的数据中获得洞见。

猜你喜欢

转载自www.cnblogs.com/LYT-Dveloper/p/12825218.html