《机器学习(周)》学习笔记(一、二)

1.机器学习所研究的主要内容是关于在计算机上从数据中产生“模型(model)”的算法。即将经验数据提供给算法,算法基于数据产生模型,在面对某一情况时,模型给我们提供相应的判断。 (Data\overset{learning/training}{\rightarrow} Model\overset{testing}{\rightarrow}Data

2.若预测的是离散值(例如:好瓜、坏瓜),此类学习任务为“分类(classification)”;若为连续值(例:西瓜成熟度:0.95,0.37),此类任务为“回归(regression)”。“聚类(clustering)”是将训练集中的训练样本分为若干组(“簇cluster”),不具有标记信息。

3.根据是否有标记信息,学习任务分为“监督学习(supervised learning)”和“无监督学习(unsupervised learning)”。

4.机器学习的目标是使学得的模型能很好地适用于“新样本”,这种能力称为“泛化(generalization)“能力。所以,训练集要能很好地反映出样本空间的特性,同时,训练样本越多,模型的泛化能力越强。

5.奥卡姆剃刀(Occam's razor):简单有效原理,若有多个假设与观察一致,选最简单的那个。

6.没有免费的午餐定理(No Free Lunch,NFL):由于对所有可能函数的相互补偿,最优化算法的性能是等价的。即在脱离实际意义情况下,空谈哪种算法好坏没有意义,要针对具体学习问题。

7.发展历程:

  • 二十世纪五十年代至七十年代初,“推理期”;
  • 二十世纪七十年代中期,“知识期”;
  • 二十世纪八十年代,“从样本中学习—符号主义学习,决策树和基于逻辑的学习;连接主义学习(局限:试错性,需手动调参,但参数设置缺乏理论指导)—BP算法”;
  • 二十世纪九十年代中期,“统计学习—支持向量机和核方法”;二十一世纪初,“连接主义学习—深度学习”。

8.大数据时代三大关键技术:机器学习提供数据分析能力;云计算提供数据处理能力;众包(crowdsourcing)提供数据标记能力。

9.模型在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。我们最终希望得到泛化误差小的模型。

  • 若模型把训练样本学得“太好了”,会把训练样本本身的一些特征当做新样本需要具备的特征,这样会导致泛化性能下降,即“过拟合(overfitting)”;与之相对的为“欠拟合(underfitting)”,是指对训练样本的一些特征没有学好。
  • 欠拟合可通过增加训练次数来克服,但过拟合无法彻底避免(缓解)。
  • 训练样本:有锯齿的树叶;新样本:椭圆树叶(不是树叶,认为必须有锯齿—过拟合),大树(是树叶,认为绿色的都是树叶—欠拟合)

10.模型在实际使用中遇到的数据称为“测试数据”,模型评估与选择中用于评估测试的数据集称为“验证集”。

11.泛化能力的评价标准

扫描二维码关注公众号,回复: 3145643 查看本文章
  • 错误率:分类错误的样本数占样本总数的比例
  • 精度:分类正确的样本数占样本总数的比例
  • 查准率(准确率,precision):真正例(true positive,TP)、假正例(false positive,FP)、真反例(true negative,TN)、假反例(false negative,FN)
  • 查全率(召回率,recall):查准率越高,查全率越低(P-R曲线)

                                        P=\frac{TP}{TP+FP}                                R=\frac{TP}{TP+FN}

  • ROC曲线和AUC

                    真正例率: TPR(y)=\frac{TP}{TP+FN}        假正例率: EPR(x)=\frac{FP}{TN+FP}

猜你喜欢

转载自blog.csdn.net/u013814184/article/details/82106845