《机器学习实战》

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haoranhaoshi/article/details/81876539

笔记:
前言
1、思考者负责模型建立,执行者负责程序编写。
2、有利基础:递归、树、线代、概率论、Python。
3、数据挖掘十大算法:C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、K-近邻算法(KNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法。
4、保证算法应用的正确性:
(1)确保算法应用可以正确处理简单数据;
(2)现实世界的数据格式转化成算法可以处理的格式(答对答错转成0和1);
(3)步骤2得到的数据输入步骤1的算法,检验算法运行结果。
5、机器学习应用举例:
(1)自动删除不适当的发布信息;
(2)检测不正当交易;
(3)给出用户可能喜欢的商品,如尿布与啤酒;
(4)预测网站的流量;
(5)搜索结果根据点击量进行排序优化;
(6)垃圾邮件过滤,根据邮件长度、多个特定单词等;
(7)手写识别;
(8)金融活动判定是否有贷款资格。
第一部分
监督学习(supervised learning)(有输入输出)(根据样本集预测目标结果):
1、监督学习:给定样本集,推演出指定目标变量的可能结果,如已知样本点集推出模型y=x^2,那x=100,目标变量结果为10000。
2、监督学习的两种目标变量(目标变量结果):标称型(如真与假,动物分类集合)和数值型。
3、监督学习常用于神经网络和决策树。 
3、机器学习的优势:改善商业决策,提高生产率,检测疾病,预测天气等。
4、Python的Numpy模块可进行抽象和处理矩阵运算。
5、机器学习的监督学习可以解决的问题:
(1)分类问题:数据划分,如明天天气晴还是阴
(2)回归问题:数值预测,如明天气温多少度
6、无监督学习(unsupervised learning)(只有输入):有聚类和密度估计两个过程,聚类,即有相同特征的数据进行集中,如新闻分类,事先不必了解分的类是哪个集合的元素。
7、半监督学习(semi-supervised learning)(部分输入有输出):半监督的分类、回归、聚类、降维。
7、监督学习的用途:K-近邻算法
 

猜你喜欢

转载自blog.csdn.net/haoranhaoshi/article/details/81876539