机器学习从入门到创业手记-非监督学习算法

还不到周末啊，每周只歇一天的日子对于刚出校园懒散的我来说实在比较难受，来到战情室这几天更是觉得有些喘不上去气，好在由于是刚毕业，公司人性化的决定我们的工资半个月一发。

杨导师今天面带轻松的走进战情室里说：监督学习的基础内容都以学完了，总结也都通过了考核，下面开始非监督学习算法，这里我只给大家讲下基础，剩下的都要靠你们自学完成了，记住公司不是养闲人的地方，需要你们快速成长，而我也不能天天在这里给你们当老师，每个人都得为公司创造价值才行。

以下内容为杨导师提供的非监督学习基础：

监督学习实现的是对于输入数据X能预测出变量Y，而非监督学习则是从数据中能挖掘出什么，如数据中最常出现的特征是哪几个，非监督学习没有已知的期望值，只有若干个数据构成的数据集，你可能也不知道这些数据要分成多少类别，要做的是在这个数据集里找到数据的相似和关联性，故无监督学习算法分成关联算法和聚类算法，其主要应用领域有市场销售，知识图谱分析等。

关联学习算法：该类算法主要用于从数据集中挖掘和抽取规则和模式。这里的规则描述了数据中不同参数和属性之间的关系，同时也找到数据中会经常出现的元素集和模式规则。这些规则可以帮助用户从海量数据中发现有意义的内容。

聚类算法：该类算法的目标是对输入数据进行归类，并将其划分为若干个不同的层级或是类别。算法中这一过程仅仅使用了输入数据中挖掘出来的特征而没有使用任何其他信息。与分类不同的是，聚类中输出数据的各个类别标签是无法获知的。

简单的例子如，老虎，狮子和猎豹都属于猫科动物，他们外形相差的非常多，但是在分类时，他们都有非常多的共同特征，而且与其它种类区别非常明显，把这些有着明显相同特征的动物都归为一类后，起名为猫科，这些特征不是预先假定好的而是这些动物自身提供的，而后再有符合类似特征的都会归为同一类。

作业：对K均值（K-Means）算法，自编码器（Auto-Encoder）算法，主成分分析（PCA）算法三个无监督学习算法：，进行原理分析和应用场景介绍并提交报告。

机器学习从入门到创业手记-非监督学习算法

猜你喜欢