机器学习1

一、概论

1.什么是机器学习

机器学习是从人工智能中产生的一个重要学科分支，是实现智能化的关键。

机器学习是一门多领域的交叉学科，设计概率论，统计学，逼近论，凸分析，算法复杂度理论等多门学科。专门研究计算机怎么样模拟或实现人类的学习行为，以获得新知识或技能，重新组织已有的知识结构使之不断改善自身性能。

2.机器学习一般过程

一句话：将训练数据进行训练得出一个公式，然后利用这个公式把测试数据通过运算得出一个学习结果。

3.发展历程

推理期（20世纪50年代-70年代初）

认为只要给及其赋予逻辑推理能力里，机器学习就具有智能

A.Newell和H.Simon中的“逻辑理论家”，“通用问题求解”程序，获得了1975年图灵奖

知识期（20世纪70年代中期）

认为要是及其具有智慧，就必须设法使及其拥有知识

E.A. Fegenbaum作为“知识工程”支付在1994年获得了了图灵奖

学科形成（20世纪80年代）

20世纪80年代是机器学习成为一个独立学科领域并开始快速发展，各种机器学习技术百花齐放

1980年美国卡内基梅隆大学举行第一节机器学习研讨会

1990年《机器学习：风范与方法》出版

繁荣期（20世纪80年代-至今）

20世纪90年代后，统计学习方法主导，代表为SVM

2006至今，大数据分析的需求，神经网络又被重视，成为深度学习理论的基础

4.机器学习的方法

有监督学习：从给定的有标注的训练数据集中学习出一个函数（模型参数），当新的数据到来时可以根据这个函数预测结果。常见任务包括分类和回归。【类似做试卷，然后参考答案来举一反三】

无监督学习：没有标注的训练数据集，需要根据样本间的统计规律对样本进行分析，常见任务如聚类等。

半监督学习：结合少量的标注训练数据和大量未标注数据来进行数据的分类学习。

增强学习：外部环境对输出只给出评价信息而非正确答案，学习机通过强化受奖励动作来改善自身的性能。

多任务学习：把多个相关的任务放在一起同时学习。

5.应用场景

1.AlphaGo完胜柯洁

2.无人驾驶车队亮相2018春晚

搜索引擎：网页、图片等

信息推荐：新闻、商品、游戏等

图片识别：人像、用品、动物等

用户分析：社交网络、影评等

机器学习适用领域：

规则固定，大量计算，固定模式

不适用领域：

思想、创意、情感

6.难题与挑战

数据稀疏性：训练一个模型，需要大量的标签数据，但是数据往往比较稀疏，样本量少，很难训练出一个“meaningful model”来预测应该给个人推荐什么样的商品。

高数量和高质量标签数据需求：获取标定数据需要耗费大量的人力和财力。而且，人会出错，有主观性。如何获取高数量和高质量标定数据，或者机器学习方法只标注“关键”数据值得深入研究。。。

冷启动问题：一个好的互联网产品，用的人多，得到的数据多；得到的数据越多，模型训练的越好，产品会变得更好用，用的人就会更多…进入良性循环。对于一个新产品，在初期，要面临数据不足的冷启动问题

泛化能力问题：训练数据不全面、均衡的代表真实数据。

模型抽象困难：总结归纳实际问题中数学表达非常困难

模型评估困难：在很多实际问题中，很难形式化的、定量的评估一个模型的结果是好是坏

寻找最优解困难：要解决的实际问题非常复杂，将其形式化后的目标函数也非常复杂，往往在目前还不存在一个有效的算法能找到目标函数的最优值。

Scalability是互联网的核心问题之一。搜索引擎索引的重要网页超过100亿：如果1台机器每秒处理100网页，至少需要100天。所以出现了MapReduce，MPI，Spark，Pegasus，Pregel，Hama等分布式计算架构。选择什么样的计算平台，和算法设计紧密相关。

速度是互联网核心的用户体验。线下模型训练可以话费很长时间：比如Google某个模型更新一次需要几千台服务器，大约训练半年时间。但是，线上使用模型的时候要求一定要“快，实时”

online learning：互联网每时每刻都在产生大量新数据，要求模型随之不停跟新，所以，online learning是机器学习一个重要的研究方向。

胖大xian

发布了64 篇原创文章 · 获赞 14 · 访问量 9177

私信关注