基本概念
训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
概念学习
人类学习概念:鸟,车,计算机
定义:概念学习是指从有关某个布尔函数的输入输出训训练阳历中推断出该布尔数
例子:学习“享受运动”这一概念:小明进行水上运动,是否享受运动取決于很多因素
这里举一个例子
小明是否进行水上运动,取决于天气,温度,湿度风力,水温,预报等特征工程,通过对小明是否享受运动的label值的验证,最终通过算法精准找出他们之中潜在的规律,进而达到精准判断。
概念定义在实例( instance)集合之上,这个集合表示为X。(X代表所有可能的日子,每个日子的值由天气,温度,湿度,风力,水温,预报6个属性表示。
待学习的概念或目标図数成为目标概念( target concept),记做c。
c(x)=1.当享受运动时,c(×)=0当不享受运动时,c(x)也可叫做y
x:每一个实例
X:样例,所有实例的集合
学习目标:f:X->Y
概念详解
训练集
训练集/训练样例:用来进行训练,也就是产生模型或者算法的数据集
测试集(/測试样例:用来专门进行测试已经学习好的模型或者算法的数据集
特征向量:属性的集合,通常用一个向量来表示,附属于一个实例
标记:c(x),实例类别的标记
正例:表完成的数据,1
反例:表未完成的数据,0
有监督学习( supervised| earning):训练集有类别标记
无监督学习( unsupervised| earning):无类别标记
半监督学习(semi- supervised| earning):有类别标记的训练集+无标记的训练集
机器学习中分类和预测算法的评估
准确率
速度
强壮性
可规模性
可解释性
机器学习步骤框架
把数据拆分为训练集和测试集
用训练集和训练集的特征向量来训练算法
用学习来的算法运用在测试集上来评估算法(可能要设计到调整参数用验证集)