李宏毅机器学习P10 Classification 笔记 - 代码天地

李宏毅机器学习P10 Classification 笔记

其他 2018-10-30 14:21:04 阅读次数: 0

版权声明：站在巨人的肩膀上学习。 https://blog.csdn.net/zgcr654321/article/details/83476144

Classification的目的是给输入的对象一个恰当的分类。

如：

还是前面P2的宝可梦例子。

一只宝可梦可以用很多属性来描述，如：

如上图，一只宝可梦可以用7个属性来描述它。

当两只宝可梦相遇时，它们之间会有属性相克：

如何完成这个分类任务？

首先收集一些training data。

假如是一个二分类，结果接近1认为是分类1，结果接近-1认为是分类2。

那么可能会遇到下面的问题：

有时候class1和class2的分布可能出现右图这样右下角有一堆离散的数据。

当我们使用regression模型训练时，为了减少误差，最后训练出的模型可能是紫色的直线。

那么我们应该怎么做呢？

如果是二分类问题：

回忆高中知识：

如果我们把盒子换成分类：

回到宝可梦的例子，我们把宝可梦分成水系的宝可梦和一般的宝可梦。

ID小于400的作为训练数据，大于400的作为测试数据。

如何计算水系宝可梦里挑出来一个是海龟的概率？

每只宝可梦用一个向量表示，又称之为feature。

我们先把其中两个属性画成一个图。

高斯分布：

假设我们能够根据上面的79个宝可梦的数据，来估计出高斯分布的μ和

将μ和代入高斯分布的表达式，这样我们就可以写出高斯分布的函数。

假如有多个不同参数的高斯分布函数，它们都可sample出这79个数据，但是sample出各个点的几率不同。

这时候我们要用最大似然估计来找出最有可能的高斯分布的参数。

计算后的结果是：

现在我们可以开始分类了。

图上每一个点都可以计算是C1的几率。显然蓝色点的部分是水系宝可梦的几率比较大。

常见的情况是不同的class用同样的。因为虽然分类不同，但他们的散步差不多。

这样只需要比较少的变量就可以描述模型了。

再计算likelihood。

共用之后，分界线变成了一条直线。

回顾一下这个模型：

为什么选择高斯分布作为几率的模型？

你也可以选择其他的模型，这是你自己决定的。

naive bayes classifier：朴素贝叶斯分类器。

使用这个分类器的前提是数据独立同分布假设成立。

上下同除分子，把左下角的项写成z，我们可以发现函数变成了sigmoid函数的形式。

把z变形一下。

继续计算，得到最终的z。

又，可继续化简，再把z写成wx+b的形式：

上面的方法中我们需要取得一些概率的样本，计算出μ和，才能计算出模型。那么我们能否有一个快捷的方法计算出w和b呢？

请看下一节。

猜你喜欢

转载自blog.csdn.net/zgcr654321/article/details/83476144

李宏毅机器学习P10 Classification 笔记

李宏毅机器学习——学习笔记（5）classification

李宏毅机器学习笔记3：Classification、Logistic Regression

李宏毅机器学习笔记-05 Classification

李宏毅机器学习笔记04（Classification: Logistic Regression）

【李宏毅机器学习笔记】4、Classification

李宏毅机器学习笔记3：Classification

李宏毅机器学习课程笔记Lesson4-Classification

李宏毅机器学习课程笔记2：Classification、Logistic Regression、Brief Introduction of Deep Learning

李宏毅机器学习2020笔记（二）Classification

[李宏毅-机器学习]分类classification

李宏毅机器学习笔记(10)

李宏毅Machine Learning学习笔记4 Classification: Probabilistic Generative Model

李宏毅机器学习-2017-Classification

李宏毅机器学习——学习笔记（10） Why deep？

李宏毅机器学习 P14 Backpropagation 笔记

机器学习笔记P1(李宏毅2019)

【笔记】机器学习 - 李宏毅 - 10 - Tips for Training DNN

李宏毅机器学习-学习笔记

【ML】李宏毅机器学习笔记

李宏毅机器学习笔记

李宏毅机器学习笔记（4）

李宏毅机器学习笔记（3）

李宏毅机器学习笔记（2）

李宏毅机器学习笔记（1）

李宏毅机器学习笔记(5)

李宏毅机器学习笔记(16)

李宏毅机器学习笔记(15)

李宏毅机器学习笔记(14)

李宏毅机器学习笔记(12)

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)