机器学习学习记录(一)机器学习绪论

认识机器学习(machine learning):

    机器学习是一门多领域综合学科,研究如何让程序,让AI优化自己的算法。其主要研究对象是让程序自我学习的算法(learning algorithm)。

    就像人类学习一样,机器学习可以通过过往的经验对未知的情况进行判断,他的学习算法的很多思路其实也是通过研究人类学习,模仿人类学习得出来的。不得不说人类确实是很厉害的生物。

身边的机器学习的应用:

    机器学习其实早已应用到我们的生活中,比如说在APP给你推送广告的过程中,你今天百度了“机器学习”,那么百度的算法就会学习到你对机器学习有兴趣。根据一定的逻辑,他会认为这是你的兴趣点,以后给你推送广告的时候会把有“机器学习”的标签的内容推送给你。

有监督学习(supervised learning)和无监督学习(unsupervised learning):

    就训练数据集的性质来划分的话,机器学习可以大概划分为有监督学习和无监督学习。

    而训练数据集就是指的在机器学习运作过程中一般可以划分为获取“经验”,使用这些“经验”进行对未知情况的判断。这个获取“经验”的过程叫做训练(fit/train),而训练的过程中使用的数据叫做训练集(training set)或者训练数据集。

    人类可以对事物进行分类,假设说你认识一只猫。把猫的特征表达为四足行走的,爱吃鱼的,活蹦乱跳的……会发出喵喵叫的。这些特征称为这个数据的属性。对这些属性进行一个划分,给他一个分类---猫,这个猫称为这个数据的标签(label)。

    提供的训练集中,如果每个数据都包含有标签(label),称为有监督学习。没有标签称为无监督学习。

    而有监督学习中,我们主要的应用集中于解决分类(classification)问题和回归(regression)问题。

    无监督学习中,我们主要的应用集中于解决聚类(cluster)问题。

    分类问题:给程序一个数据的属性集,他根据他的算法给你判定这个数据的分类。例如说:四足行走的,爱吃鱼的,活蹦乱跳的……会发出喵喵叫的,这样的数据给到程序他会判定这是一只猫。

    回归问题:给程序一个数据的某些值,他会根据他的算法给你算出这个数据的余下的值。比如说根据前5天的股市行情预测明天的股市行情。

    聚类问题:给程序一些数据,他根据他的算法给这些数据进行分类,即他会发现数据本身内在的规律,并对这些数据进行分类。比如说对一个位置的细菌群进行分类,我们现阶段并不知道这个细菌群有什么种类的细菌,我们希望程序帮助我们去发现这个细菌群的有什么类别,发展他们之间的内在联系,这个任务称为聚类。

前置学习推荐路线:

   所谓人工智能其实还是和数据打交道的,如何处理数据让其称为程序的过往经验,如何权衡数据的重要性/权(weight)是机器学习算法的重点。所以会对数学要求比较高。

   线性代数

    概率论

    数理统计

    信息论

    (最优化理论)

    (形式逻辑)


编程基础:

    一般都使用python做人工智能的开发的编程语言,因为python当下做数据处理的性能好以及工具比较完备,辅以一些数据可视化等一些软件/库。

    结语:

      人们终于走向了大数据时代,克服了数据采集困难,数据价值不高等一些问题,人工智能的发展力度是前所未有的,我也是投入到人工智能学习的其中一员。希望能通过这博客帮助他人以及帮助自己学习,达到共同进步的目标。

    如有错误 或表达不准确可留言指出。


   

猜你喜欢

转载自blog.csdn.net/negineko/article/details/80238668