ML笔记

ML笔记

注:本笔记是在观看了吴恩达老师的视频后写下的,也是本人的第一篇笔记。对于ML我是小白,如若有错误的地方,欢迎各位指正。

一、引言

  1. 什么是机器学习?

    • Arthur Samuel:在进行特定编程的情况下,给予计算机学习能力的领域。
    • Tom Mitchell:一个好的学习问题定义如下,他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
    • 总结:经验E 就是程序上万次的自我练习的经验而任务T 就是下棋。性能度量值P呢,就是它在与一些新的对手比赛时,赢得比赛的概率。
    • 例题:我们假设您的电子邮件程序会观察收到的邮件是否被你标记为垃圾邮件。在这种Email客户端中,你点击“垃圾邮件”按钮,报告某些Email为垃圾邮件,不会影响别的邮件。基于被标记为垃圾的邮件,您的电子邮件程序能更好地学习如何过滤垃圾邮件。请问,在这个设定中,任务T是什么?
      • 分类邮件
  2. 主要的学习算法类型

    • 监督学习:Supervised Learning
    • 无监督学习:Unsupervised Learning
  3. 监督学习(Supervised Learning)

    • 监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。

    • 算法的目的:给出更多的正确答案。

    • 回归问题:设法预测连续值的属性(预测连续的数值输出)。

    • 分类问题:设法预测一个离散值的输出(有时会出现两个以上的可能的输出值)。

    • 例题:

      1. 房价例题:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套750平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。

        在这里插入图片描述

        • 我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖15万美元。
        • 当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。
        • 根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近。稍后我们将讨论如何选择学习算法,如何决定用直线还是二次方程来拟合。
        • 两个方案中有一个能让你朋友的房子出售得更合理。
      2. 通过查看病历来推测乳腺癌良性与否:假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。

        在这里插入图片描述

        • 这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出1和0表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为1,不是恶性,或者说良性记为0。
        • 我有5个良性肿瘤样本,在1的位置有5个恶性肿瘤样本。现在我们有一个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。用术语来讲,这是一个分类问题。
        • 分类指的是,我们试着推测出离散的输出值:0或1良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出0、1、2、3。0 代表良性,1 表示第1类乳腺癌,2表示第2类癌症,3表示第3类,但这也是分类问题。
        • 因为这几个离散的输出分别对应良性,第一类第二类或者第三类癌症,在分类问题中我们可以用另一种方式绘制这些数据点。
        • 现在我用不同的符号来表示这些数据。既然我们把肿瘤的尺寸看做区分恶性或良性的特征,那么我可以这么画,我用不同的符号来表示良性和恶性肿瘤。或者说是负样本和正样本现在我们不全部画X,良性的肿瘤改成用 O 表示,恶性的继续用 X 表示。来预测肿瘤的恶性与否。
  4. 无监督学习(Unsupervised Learning)

    • 没有任何的标签或者是有相同的标签或者就是没标签。
    • 对于给定的数据集(data set),无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可以把这些数据分成两个不同的簇。所以叫做聚类算法。

(持续更新。。。。。。)

发布了1 篇原创文章 · 获赞 0 · 访问量 17

猜你喜欢

转载自blog.csdn.net/weixin_44136998/article/details/104011503
ML