2019-4(2)-数据挖掘学习笔记

第一章 走进数据科学

数据挖掘技术:

1、分类-classfication

overfitting:

最常用算法:knn、Decision Tress

confusion Matrix

Receiver Operating Cjaracterostic   

扫描二维码关注公众号,回复: 5963982 查看本文章

auc值(0-1之间,越大越好)

2、聚类-clusterinng

最常用算法:K-Means

特殊的聚类:Hierarchical clustering 

3、关联规则-Association Rule

特点:强应用型

4、回归-Regression

overfitting问题:

 

数据挖掘-Data preprocessing

G.I.G.O.

Internet Privacy --privacy protection

例子(吸毒调查问卷填写):

 

Cloud Computing 

PAYG:saas  paas  issa

 

Parallel Computing 

cpu + gpu   产品:Mobile superComputing(invidia TK1)  

 注意事项:

数据、算法、计算工具缺一不可。

尝试用简单的模型,如knn + k-menas+Linear

有没有规律可挖掘,别做无用功(如彩票预测)

不要犯盲人摸象的错误。

猜你喜欢

转载自www.cnblogs.com/xinluo-fresher/p/10745596.html