Machine Learning Algorithm 初识机器学习2

监督学习中,我们有输入(自变量),有输出(因变量),对于输出我们都可以根据预期计算输出的误差是多少。

然而,有的时候我们得不到因变量,只知道输入是什么,或者数据的特征是什么,我们需要对数据进行类别的划分,这个时候就涉及到无监督学习

无监督学习最为主要的算法为两类:

聚类算法 : 对数据行(一条记录)进行分组的方法

主成分分析法 : 对数据列(一个字段)进行分组的方法

对于一个给定的用户,我们可以对其进行划分组别,因为一个用户代表数据集的一行。

PCA主要用于降低数据的维度或者减少变量的个数(数据列)。

构建模型的一般步骤

1. 从哪里获取数据?

一般来说,数据来源于数据库,csv,或者text文档。

2. 哪些数据应该被获取?

输入是什么很大程度决定了输出。我们需要知道影响输出的因素有哪些。最懂的人是一线人员,他们了解那个领域的深度知识。

3. 预处理数据

a 不存在的数据,缺失数据。(用当前列的值的均值替换缺失值,或者使用KNN算法确定缺失值)

b. 异常值。异常值往往很大程度地影响回归的效果。(往往使用确定的百分比截断)

c 变量的采样。在梯度下降算法中,通过抽样样本可以优化下降速度。使用Log或者平方运算进行变换。

4. 特征交互

不同的特征之间进行组合,比如回归问题上不会关注在泰坦尼克问题上,年龄小的男孩存活率更高的问题。而决策树就会考虑,这是产生新的特征的基础。

5. 特征的产生

一些特征也许并没有直接在数据集中给定,但是考虑领域因素的话,外在的间接的特征也许起到很重要的作用。

6. 创建模型

7. 生产化使用

猜你喜欢

转载自blog.csdn.net/Day_and_Night_2017/article/details/89336252