机器学习笔记2：数据建模全流程

数学建模标准流程包括商业理解、数据理解、数据清洗、建立模型、部署应用留个流程，具体如下：

我们将数据建模标准流程转化为可执行可实施部分，那就是以下几个步骤：

商业理解

即对建模的项目需求和目标进行综合分析，对项目的可行性和数据条件进行评估，对业务进行梳理和深入了解，根据实际情况评估模型建立的价值。

以下主要介绍用KNIME（国外比较流行的数据挖掘建模工具，类似于SPSS Modelar工具）工具建立模型的操作步骤：

1.数据源导入

可以将不同格式的数据源导入建模，常见的有excel,CSV,TXT,file,zip等格式或直接连接SQL数据库，这几种方式都能将数据导入建模工具，并且导入的数据量级可以达到10万以上，100万也木有问题，基本能满足所有建模数据要求。

导入数据操作步骤：

1）打开 KNIME ，点击顶部file—new新建一个作业，点击左侧IO->XLS Reader（或其他数据源图标）,将图标拖拽至建模区，如图所示：

2）右键双击XLS Reader图标，Browse本地数据源，点击确定。

execute运行之后，数据就成功导入KNIME系统，这时候可以通过Hilite table 节点查看导入的数据，如图所示：

2.数据处理

数据处理包括数据填充，数据标准化，数据转化和数据编码，即对原始数据进行数据噪音去除，字段类型转化，字段赋值和过滤等，主要目的是为最后的建模提供优质可信的训练数据集，尽量排除个别数据对整体模型结果的影响。也是数学建模过程中最重要的步骤之一，此部分占据整个模型工作量的60%以上。

（2）One to Many: 将一列中所有值的类别转换成好几列新值。如果对应这列单元格有指定的值则为1，否则为0，简单来说就是将一行数据转化为值为1或0的矩阵。

（3）String Manipulation: 字符串操作，删除一列的前导和尾随空格，或者一列衍生新值。

（5）Color Manager:给指定字段标识颜色，一般是目标字段标颜色，便于查看结果。

（6）Domain Calculator:更新数据的域值，通过限制数据于值的百分比来删除离散数据（最大值域或最小值域）。

通过以上节点可以处理基本的数据清洗和整理工作，可以建立简单的模型了，更高级的数据处理节点以后介绍。

3.数据建模

模型选择和模型评估

(1)数据分区

将数据分为训练数据和测试数据两个部分，选择节点Partitioning，可以对分区方式进行设置，示例：相对50%分区，使用随机种子。

算法参考：http://blog.csdn.net/passball/article/details/7661887/

（2）Naive Bayes

（3）kNN

（4）Logistic

参考文档：http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html

（5）Decision Tree

（6）Neural Network

未完待续（明天）

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

4模型优化和改进

未完待续（明天）

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。