机器学习笔记2:数据建模全流程

数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程,具体如下:


我们将数据建模标准流程转化为可执行可实施部分,那就是以下几个步骤:

商业理解

即对建模的项目需求和目标进行综合分析,对项目的可行性和数据条件进行评估,对业务进行梳理和深入了解,根据实际情况评估模型建立的价值。

以下主要介绍用KNIME(国外比较流行的数据挖掘建模工具,类似于SPSS Modelar工具)工具建立模型的操作步骤:

1.数据源导入

可以将不同格式的数据源导入建模,常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库,这几种方式都能将数据导入建模工具,并且导入的数据量级可以达到10万以上,100万也木有问题,基本能满足所有建模数据要求。

导入数据操作步骤:

1)打开  KNIME ,点击顶部filenew新建一个作业,点击左侧IO->XLS Reader(或其他数据源图标),将图标拖拽至建模区,如图所示:


2)右键双击XLS Reader图标,Browse本地数据源,点击确定。


execute运行之后,数据就成功导入KNIME系统,这时候可以通过Hilite table 节点查看导入的数据,如图所示:


2.数据处理

数据处理包括数据填充,数据标准化,数据转化和数据编码,即对原始数据进行数据噪音去除,字段类型转化,字段赋值和过滤等,主要目的是为最后的建模提供优质可信的训练数据集,尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一,此部分占据整个模型工作量的60%以上。


2One to Many:  将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1,否则为0,简单来说就是将一行数据转化为值为10的矩阵。


3String Manipulation字符串操作,删除一列的前导和尾随空格,或者一列衍生新值。


5Color Manager:给指定字段标识颜色,一般是目标字段标颜色,便于查看结果。


6Domain Calculator:更新数据的域值,通过限制数据于值的百分比来删除离散数据(最大值域或最小值域)。


通过以上节点可以处理基本的数据清洗和整理工作,可以建立简单的模型了,更高级的数据处理节点以后介绍。

3.数据建模

模型选择和模型评估

(1)数据分区

将数据分为训练数据和测试数据两个部分,选择节点Partitioning,可以对分区方式进行设置,示例:相对50%分区,使用随机种子

算法参考:http://blog.csdn.net/passball/article/details/7661887/

2Naive Bayes

3kNN

4Logistic

参考文档:http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html

5Decision Tree

6Neural Network

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

 

4模型优化和改进

未完待续(明天)

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。



猜你喜欢

转载自blog.csdn.net/weixin_41931602/article/details/80461426
今日推荐