1简单的机器学习流程
2训练集/验证集(开发集)/测试集
在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来调超参数,测试集用来测试模型准确度.
在教学环境中,由于数据比较少,我们只涉及训练集与测试集
3常见的机器学习算法
分类、回归、聚类、降维、模型选择、预处理等
有监督机器学习和无监督机器学习
有监督机器学习:我们要教会计算机做某些事情
无监督机器学习:让计算机自己去做某些事情
有监督机器学习就是:我们给算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案
无监督机器学习就是:我们给算法一个数据集,但是不给他正确答案,而让计算机自己去学习
分类:有监督, 举例:猫狗分类
回归:有监督, 举例:房价预测
聚类:无监督, 举例:新闻分类
降维:数据处理
模型选择:算法的选择和参数调试所用到的技术
预处理:特征提取和归一化