1、概念

机器学习，就是通过历史数据找出一定的规律，并使用这些规律对将来不确定的场景进行决策。

机器学习VS数据分析

数据分析，是人为的从历史交易数据中找规律，从而决策。
机器学习，是机器使用算法，从历史行为数据中找规律，从而决策。

交易数据是少量的，行为数据是海量的。

数据分析的准确性，主要取决于分析的这个专家的能力高低。
机器学习的准确性，主要取决于历史数据。

专家再厉害，他的判断也会带有片面性和个人主观性。

所以由数据分析到机器学习，其实就是用数据代替专家的过程。

机器学习VS统计学

统计学，海量数据抽样分析，得到结论，反向校验，优化结论。
机器学习，海量数据全量分析，得到结论。

统计学，最早是因为数据量太大，没法全量处理，才不得已用了抽样的方法。
当有了机器学习，这个问题其实也算被解决了。

离线机器学习VS在线机器学习

大部分机器学习，都是离线的，比如攒一天的数据，每天凌晨批量机器学习一次。
特殊业务场景，需要在线实时机器学习。不断的通过新数据去刺激模型，电商的推荐一般都是实时的。比如猜你喜欢，总能在你搜索完一个商品后，在后续的浏览中就把你刚刚搜索过的类似商品推荐给你。

2、机器学习的应用

购物分析（关联规则算法）

经典案例：美国的啤酒和纸尿裤，总是同时被购买。商家进行对应的捆绑营销，提高销售额。

精准营销（聚类算法）

将人精确的分为不同的类，每类进行不同的营销。

垃圾邮件的识别（朴素贝叶斯算法）

识别垃圾邮件

信用卡欺诈（决策树算法）

信贷风险识别（还款能力不足和骗贷）

互联网广告（ctr预估算法，线性逻辑回归）

对用户的点击率进行预估，比如搜索，对于展示的每一条结果，都会评价一个用户点击的概率，然后按照这个概率的大小进行排列展示，让最有可能点的排在最前面。

自然语言处理

情感分析，通过一个人的评论，分析出这个人的可能性格，从而归类。
实体识别，提取一篇文章的主干信息，比如人名地名等，从而尝试确定一个实体。
等等。。。

图像识别（深度学习）

人脸识别，还有支付宝那个扫一扫就知道是什么植物的功能

其他

语音识别
自动驾驶
视频识别
手势控制
智慧机器人
等等。。。

3、常用算法分类

3.1、按监督分类

y=f(x)

有监督学习：明确指出数据属于哪些标签，再去学习，最终得到模型。

分类算法
回归算法

无监督学习：提前不知道要训练成什么样子

聚类算法

半监督学习：也叫强化学习，一开始训练效果不好，随着时间慢慢强化模型

3.2、按模型分类

生成模型（万事好商量）

使用生成模型，最终你给一个入参，模型会给你不同结果的概率。

判别模型（非黑即白）

判别模型，最终模型会给你一个函数，你给他入参，他就给你出参。

4、机器学习解决问题的套路

4.1、确定目标

1、根据业务需求，确定目标
2、收集历史数据
3、做特征工程（数据预处理，清理，整合），提取出特征

最终的模型，能达到多大的效果，绝大部分因素取决于特征工程做的好不好。所以特征工程是最重要的一步

4.2、训练模型

1、定义模型：定义好一个公式，各个参数需要训练得出
2、定义损失函数：定义最终结果的偏差的大小，最终能量化的知道预测结果和真实结果的差值
3、优化算法：损失函数取最小

4.3、模型评估

1、交叉验证
2、效果评估

zhangSir134

发布了203 篇原创文章 · 获赞 186 · 访问量 21万+

私信关注

机器学习笔记（了解）