1、概念
机器学习,就是通过历史数据找出一定的规律,并使用这些规律对将来不确定的场景进行决策。
机器学习VS数据分析
数据分析,是人为的从历史交易数据中找规律,从而决策。
机器学习,是机器使用算法,从历史行为数据中找规律,从而决策。
交易数据是少量的,行为数据是海量的。
数据分析的准确性,主要取决于分析的这个专家的能力高低。
机器学习的准确性,主要取决于历史数据。
专家再厉害,他的判断也会带有片面性和个人主观性。
所以由数据分析到机器学习,其实就是用数据代替专家的过程。
机器学习VS统计学
统计学,海量数据抽样分析,得到结论,反向校验,优化结论。
机器学习,海量数据全量分析,得到结论。
统计学,最早是因为数据量太大,没法全量处理,才不得已用了抽样的方法。
当有了机器学习,这个问题其实也算被解决了。
离线机器学习VS在线机器学习
大部分机器学习,都是离线的,比如攒一天的数据,每天凌晨批量机器学习一次。
特殊业务场景,需要在线实时机器学习。不断的通过新数据去刺激模型,电商的推荐一般都是实时的。比如猜你喜欢,总能在你搜索完一个商品后,在后续的浏览中就把你刚刚搜索过的类似商品推荐给你。
2、机器学习的应用
购物分析(关联规则算法)
经典案例:美国的啤酒和纸尿裤,总是同时被购买。商家进行对应的捆绑营销,提高销售额。
精准营销(聚类算法)
将人精确的分为不同的类,每类进行不同的营销。
垃圾邮件的识别(朴素贝叶斯算法)
识别垃圾邮件
信用卡欺诈(决策树算法)
信贷风险识别(还款能力不足和骗贷)
互联网广告(ctr预估算法,线性逻辑回归)
对用户的点击率进行预估,比如搜索,对于展示的每一条结果,都会评价一个用户点击的概率,然后按照这个概率的大小进行排列展示,让最有可能点的排在最前面。
推荐系统(协同过滤算法)
电商的推荐系统,猜你喜欢。通过推荐一些用户可能买的东西,提高销量。
自然语言处理
情感分析,通过一个人的评论,分析出这个人的可能性格,从而归类。
实体识别,提取一篇文章的主干信息,比如人名地名等,从而尝试确定一个实体。
等等。。。
图像识别(深度学习)
人脸识别,还有支付宝那个扫一扫就知道是什么植物的功能
其他
语音识别
自动驾驶
视频识别
手势控制
智慧机器人
等等。。。
3、常用算法分类
3.1、按监督分类
y=f(x)
有监督学习:明确指出数据属于哪些标签,再去学习,最终得到模型。
分类算法
回归算法
无监督学习:提前不知道要训练成什么样子
聚类算法
半监督学习:也叫强化学习,一开始训练效果不好,随着时间慢慢强化模型
3.2、按模型分类
生成模型(万事好商量)
使用生成模型,最终你给一个入参,模型会给你不同结果的概率。
判别模型(非黑即白)
判别模型,最终模型会给你一个函数,你给他入参,他就给你出参。
4、机器学习解决问题的套路
4.1、确定目标
1、根据业务需求,确定目标
2、收集历史数据
3、做特征工程(数据预处理,清理,整合),提取出特征
最终的模型,能达到多大的效果,绝大部分因素取决于特征工程做的好不好。所以特征工程是最重要的一步
4.2、训练模型
1、定义模型:定义好一个公式,各个参数需要训练得出
2、定义损失函数:定义最终结果的偏差的大小,最终能量化的知道预测结果和真实结果的差值
3、优化算法:损失函数取最小
4.3、模型评估
1、交叉验证
2、效果评估