《机器学习实战》

笔记：
前言
1、思考者负责模型建立，执行者负责程序编写。
2、有利基础：递归、树、线代、概率论、Python。
3、数据挖掘十大算法：C4.5决策树、K-均值（K-mean）、支持向量机（SVM）、Apriori、最大期望算法（EM）、PageRank算法、AdaBoost算法、K-近邻算法（KNN）、朴素贝叶斯算法（NB）和分类回归树（CART）算法。
4、保证算法应用的正确性：
（1）确保算法应用可以正确处理简单数据；
（2）现实世界的数据格式转化成算法可以处理的格式（答对答错转成0和1）；
（3）步骤2得到的数据输入步骤1的算法，检验算法运行结果。
5、机器学习应用举例：
（1）自动删除不适当的发布信息；
（2）检测不正当交易；
（3）给出用户可能喜欢的商品，如尿布与啤酒；
（4）预测网站的流量；
（5）搜索结果根据点击量进行排序优化；
（6）垃圾邮件过滤，根据邮件长度、多个特定单词等；
（7）手写识别；
（8）金融活动判定是否有贷款资格。
第一部分
监督学习（supervised learning）（有输入输出）（根据样本集预测目标结果）：
1、监督学习：给定样本集，推演出指定目标变量的可能结果，如已知样本点集推出模型y=x^2，那x=100，目标变量结果为10000。
2、监督学习的两种目标变量（目标变量结果）：标称型（如真与假，动物分类集合）和数值型。
3、监督学习常用于神经网络和决策树。
3、机器学习的优势：改善商业决策，提高生产率，检测疾病，预测天气等。
4、Python的Numpy模块可进行抽象和处理矩阵运算。
5、机器学习的监督学习可以解决的问题：
（1）分类问题：数据划分，如明天天气晴还是阴
（2）回归问题：数值预测，如明天气温多少度
6、无监督学习（unsupervised learning）（只有输入）:有聚类和密度估计两个过程，聚类，即有相同特征的数据进行集中，如新闻分类，事先不必了解分的类是哪个集合的元素。
7、半监督学习（semi-supervised learning）（部分输入有输出）：半监督的分类、回归、聚类、降维。
7、监督学习的用途：K-近邻算法

《机器学习实战》

猜你喜欢