机器学习1

一、概论

1.什么是机器学习

机器学习是从人工智能中产生的一个重要学科分支,是实现智能化的关键。

机器学习是一门多领域的交叉学科,设计概率论,统计学,逼近论,凸分析,算法复杂度理论等多门学科。专门研究计算机怎么样模拟或实现人类的学习行为,以获得新知识或技能,重新组织已有的知识结构使之不断改善自身性能。

2.机器学习一般过程

一句话:将训练数据进行训练得出一个公式,然后利用这个公式把测试数据通过运算得出一个学习结果。

3.发展历程

推理期(20世纪50年代-70年代初)

认为只要给及其赋予逻辑推理能力里,机器学习就具有智能

A.Newell和H.Simon中的“逻辑理论家”,“通用问题求解”程序,获得了1975年图灵奖

知识期(20世纪70年代中期)

认为要是及其具有智慧,就必须设法使及其拥有知识

E.A. Fegenbaum作为“知识工程”支付在1994年获得了了图灵奖

学科形成(20世纪80年代)

20世纪80年代是机器学习成为一个独立学科领域并开始快速发展,各种机器学习技术百花齐放

1980年美国卡内基梅隆大学举行第一节机器学习研讨会

1990年《机器学习:风范与方法》出版

繁荣期(20世纪80年代-至今)

20世纪90年代后,统计学习方法主导,代表为SVM

2006至今,大数据分析的需求,神经网络又被重视,成为深度学习理论的基础

4.机器学习的方法

有监督学习:从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。常见任务包括分类和回归。【类似做试卷,然后参考答案来举一反三】

无监督学习:没有标注的训练数据集,需要根据样本间的统计规律对样本进行分析,常见任务如聚类等。

半监督学习:结合少量的标注训练数据和大量未标注数据来进行数据的分类学习。

增强学习:外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励动作来改善自身的性能。

多任务学习:把多个相关的任务放在一起同时学习。

5.应用场景

1.AlphaGo完胜柯洁

2.无人驾驶车队亮相2018春晚

搜索引擎:网页、图片等

信息推荐:新闻、商品、游戏等

图片识别:人像、用品、动物等

用户分析:社交网络、影评等

机器学习适用领域:

规则固定,大量计算,固定模式

不适用领域:

思想、创意、情感

6.难题与挑战

数据稀疏性:训练一个模型,需要大量的标签数据,但是数据往往比较稀疏,样本量少,很难训练出一个“meaningful model”来预测应该给个人推荐什么样的商品。

高数量和高质量标签数据需求:获取标定数据需要耗费大量的人力和财力。而且,人会出错,有主观性。如何获取高数量和高质量标定数据,或者机器学习方法只标注“关键”数据值得深入研究。。。

冷启动问题:一个好的互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多…进入良性循环。对于一个新产品,在初期,要面临数据不足的冷启动问题

泛化能力问题:训练数据不全面、均衡的代表真实数据。

模型抽象困难:总结归纳实际问题中数学表达非常困难

模型评估困难:在很多实际问题中,很难形式化的、定量的评估一个模型的结果是好是坏

寻找最优解困难:要解决的实际问题非常复杂,将其形式化后的目标函数也非常复杂,往往在目前还不存在一个有效的算法能找到目标函数的最优值。

Scalability是互联网的核心问题之一。搜索引擎索引的重要网页超过100亿:如果1台机器每秒处理100网页,至少需要100天。所以出现了MapReduce,MPI,Spark,Pegasus,Pregel,Hama等分布式计算架构。选择什么样的计算平台,和算法设计紧密相关。

速度是互联网核心的用户体验。线下模型训练可以话费很长时间:比如Google某个模型更新一次需要几千台服务器,大约训练半年时间。但是,线上使用模型的时候要求一定要“快,实时”

online learning:互联网每时每刻都在产生大量新数据,要求模型随之不停跟新,所以,online learning是机器学习一个重要的研究方向。

发布了64 篇原创文章 · 获赞 14 · 访问量 9177

猜你喜欢

转载自blog.csdn.net/jiangSummer/article/details/104304538