机器学习基础知识

监督学习

对事物未知表现的预测,一般包括分类问题和回归问题

分类问题

预测类别,比如一个人的身高,体重和三围等数据预测一个人的性别

回归问题

预测连续变量,如根据房屋的面积,地理位置,建筑年代等预测销售价格

无监督学习

倾向于对事物本身特性的分析,常用的技术包括数据降维和聚类问题

数据降维

对事物的特性进行压缩和筛选,留最有区分度的像素组合

聚类

依赖于数据的相似性,把相似的数据样本划分为一个簇

特征

反映数据内在规律的信息

监督学习中的经验
  • 特征、标记(label)
  • 一个特征向量描述一个数据样本
  • label的表现形式取决于监督学习的种类
  • 数据标注需耗费大量资源,故数据量少
训练集(training set)

带label的数据集,用来训练学习系统

无监督学习中的经验

无label故无法做预测,但适合对数据结构作分析

原始数据转化为特征向量的过程中会遭遇多种数据类型(需全部转化为具体数值运算):

  • 类别型特征(categorical)
  • 数值型特征(numerical)
  • 缺失数据(missing value)
训练集

用于训练模型的子集

扫描二维码关注公众号,回复: 6172894 查看本文章
测试集

用于测试训练后模型的子集
1

验证集

是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
f5e749ee14556b36a6e4dfd61160f70

性能(performance)

评价学习模型完成任务质量的指标

分类问题

准确性(accuracy)——预测正确类别的百分比

回归问题:衡量预测值与实际值之间的偏差大小

测试集(testing set):与TS具备相同特征,没有被用于训练

how:用测试集测试预测的准确率(用具备相同特征的数据,模型在测试集上的预测结果与正确结果进行比对)

猜你喜欢

转载自blog.csdn.net/weixin_43425693/article/details/90018846