机器学习day01

什么是机器学习?
    1.机器学习,致力于研究如何通过计算的手段(GPU和CPU),利用经验(数据)来改善自身的性能的过程
    2.机器学习,专门研究计算机如何能够模拟或实现人类的学习行为,以获取新的知识或技能
        从而重新组织这些新的技术或技能提高自身的性能或能力。
    3.数据Data+机器学习算法==>Model(预测的能力)
    4.当有新的数据需要预测,只需要提供给Model模型即可得到结果信息。
    5.对于数值计算、确定性的问题不是机器学习问题。
    6.基于规则的学习和基于模型的学习
        基于规则的学习---利用人从业务中发现规律--->规则--->其余数据只需要
            做一个判断就可以得出当前的邮件是否为垃圾邮件
        基于模型的学习---利用数据集(训练集和测试集)--->
            训练集+分类算法---训练模型Model
            有新的邮件数据+Model=Predict-->是垃圾邮件or不是垃圾邮件
机器学习的基本概念:
        训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归
            数据集---城市数据集
            行---样本数据
            列---特征或属性数据(除去最后一列的标签列)
            属性空间:属性张成的空间
            特征向量:每一个样本中的数据组成的向量
            训练集:用于模型训练的数据集,X+Y
            测试集:用于校验模型的优劣程度,X+Y
            训练过程:(学习过程)使用训练数据集+机器学习算法==>模型
            模型:将测试集中除去Y部分灌入模型中进行预测Y1
            误差:Y-Y1  
            测试误差:模型在测试集上的误差
            训练误差:模型在训练集上的误差
            泛化误差:对新数据的适应能力
            准确率:预测争取的个数/全部个数个数
            错误率:预测错误的个数/全部样本个数
    以西瓜数据集为例:
            数据集名称---西瓜数据集
            样本个数、属性或特征个数
            特征空间
            特征向量
            训练集、测试集
            模型---判断西瓜是好西瓜还是坏西瓜(二分类问题)
            当有新的数据来的时候,通过模型做预测
            误差:预测值和真实值有误差
            准确率和错误率
    引入:
    分类和回归差别:
        输出变量是否是连续值--是-->回归  不是--->分类
    监督学习(有类别标签的学习行为):
        将分类和回归统称为监督学习
    无监督学习(没有类别标签的数据集学习方式)
    半监督学习(有的数据集有标签有的数据集没有标签)

猜你喜欢

转载自blog.csdn.net/weixin_42487706/article/details/88930010