1.概念
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景做决策。
计算机是机器学习的驱动主体,数据分析主体为人,一般靠分析师的经验和知识水平,存在一定的局限性;历史数据则是对预判决策的一种依据,例如公司年度业绩表、后台对购物人员的历史记录统计等,它为决策提供资源,数据量越大,训练得到的规律可能越精确;规律从简单来说就是寻找数据之间的数学函数和公式等关系,机器学习会将很多的分析转化为向量用模型模拟去拟合规律,这是靠机器学习&计算机生成的,对于人来解决这种数学问题,简单的话就暴力码代码,若考虑时空性能就可能需要考虑各种思想算法例如快速幂、大数高精度等等,在数据统计中一般采用抽样-描述统计-得出结论-假设检验的方法来解决问题;不确定场景是指人不能对未来发生的事做出一定概率的判断,例如公司未来业绩水平,这受很多因素的影响,存在不可控和不确定因素太多,可以依靠机器学习的离线模式或者在线实时模式;决策就是根据规律对未来发生的做一种预判,例如可以根据消费者的淘宝消费历史和浏览历史数据统计出一定的规律,再为消费者提供一下关联或者推荐的商品等等。
2,生活实例
购物篮分析:
啤酒和纸尿布的故事大概大家都知道,原本两个不相关的东西摆在了同一商架上,用的是关联规则,根据一些顾客的 需求关联,方便了顾客,增加了销售;
用户细分精准营销:
根据使用者对手机卡的特殊需求,运用聚类的方法,将卡分为全球通--商人,动感地带--学生,神州行--白领和一般工作的人等等
垃圾邮件:运用朴素贝叶斯
信用卡欺诈:运用决策树,对风险识别,判断还款能力,以及是骗子的可能性
互联网广告:运用ctr预估,即对用户点击率预估,例如百度搜索的广告排序,点击率高的往前排
推荐系统:运用协同过滤,类似关联规则,对顾客推荐相关联的系统,如淘宝购物车
自然语言处理:(也是一种重要研究方向)情感分析(关键字),实体识别
图像识别:深度学习
还有语言识别,个性化医疗,人脸识别,自动驾驶,智慧机器人,手势控制(如体感游戏),视频内容识别问题等等
3.数据分析和机器学习的区别
i. 数据特点:
交易数据&行为数据:用户账单、下单&用户浏览历史、搜索历史
少量数据&海量数据:
采样分析&全量分析:关系数据库&&分布式数据分析平台
报告过去&预测未来:
ii. 技术手段:
用户驱动&数据驱动
交互式分析&自动进行知识发展
iii. 参与者:
分析师&计算机 :目标在于公司高层&目标在于个体
4,常用算法
分类(1)
i. 有监督学习:分类算法&回归算法,跟着“老师”学习
无监督学习:聚类算法,智能
半监督学习:例如小孩不断学走路,开始训练时提供标签,随着数据不断输入,强化学习
ii. 分类&回归: 输出值&输出类别
聚类:
标注:标签,例如词性
iii. 生成模型:分类概率
判别模型:直接告诉属于什么类
分类(2)
C4.5算法(分类),K-Means算法(聚类),SVM(统计学习,面试常提),Apriori(关联分析),EM(统计学习),knn(分类),Adaboost(决策树),FP-Growth,逻辑回归,RF(随机森林)/GBDT,推荐算法,LDA(文本分析),Word2Vector(自然语言处理),深度学习(图像识别)等等
5,框架
i. 确定目标:
业务需求,数据,特征工程
ii.训练模型:
定义模型,定义损失函数(偏差),优化算法(损失极小值)
iii. 模型评估:
交叉验证,效果评估
小笔记,有问题还望指教
内容记录来源:观看慕课网中《初识机器学习-理论篇》视频