李宏毅机器学习——结构化学习(一)

其他 2020-03-22 09:53:51 阅读次数: 0

引言

本文主要介绍了什么是结构化学习(Structured Learning)，并简要介绍了下原理。最后对一些应用场景进行了一些说明。

结构化学习

到目前为止，我们考虑的问题它的输入和输出都只是向量。

在这里插入图片描述

实际上我们面对的问题可能比这更复杂，可能输入或输出是序列(sequence)，列表(list)、树(tree)或边框(bounding box)。

我们想要一个更强大的函数 $f$ ，它的输入是一种对象，输出是另一种对象。

它其实有很多应用。

语音识别
- $X$ : 语音讯号(序列) → $Y$ ：文字(序列)
翻译
- $X$ : 中文语句(序列) → $Y$ ：英文语句(序列)
中文分词
- $X$ : 句子(序列) → $Y$ ：切分树(parsing tree,树结构)
目标检测
- $X$ : 图像 → $Y$ ：边框(bounding box)
摘要生成
- $X$ : 文档 → $Y$ ：摘要(短片段)
检索
- $X$ : 关键字→ $Y$ ：搜索结果(网页列表)

在这里插入图片描述

那如何做结构化学习呢，虽然它听起来困难，实际上有个统一的框架。

Unified Framework

在这里插入图片描述

训练的时候，找一个函数 $F$ ，它的输入是 $X$ 和 $Y$ ，输出是实数 $R$ 。该实数代表这两个结构化对象有多匹配。

在测试的时候，给定一个新的结构化对象 $x$ ，穷举所有可能的 $Y$ ，代入函数 $F$ ，求得使其结果最大的 $y$ 。

目标检测

假设我们要做的是目标检测，给定一张图像，需要从图像中框出某个物体(目标)。

$X$ : 图像 → $Y$ ：边框(bounding box)

在这里插入图片描述
比如要做凉宫春日人物(戴黄色丝带的那个)检测。这只是举个例子，看来李宏毅老师很喜欢二次元啊。实际上可以用同样的技术来检测人脸。

在这里插入图片描述
来识别车辆并测距离。

回到识别凉宫春日的图。

在这里插入图片描述

输入就是一张图像，输出就是一个边框， $F(x,y)$ 说的是假设这张图片这个位置和这个红色边框有多匹配。

你可能期待你的模型能做到框的很正确。下面是一些正确和错误的示例：

在这里插入图片描述

接下来测试的时候，给定一张从来没看过的图像，穷举所有的边框。然后看哪个边框得到的分数最高。

在这里插入图片描述

可能红色的得到10分，黄色的分数最低。那么红色就是你模型的输出。

摘要生成

在摘要生成中，给定一篇很长的文章(文档)，输出一个摘要。

在这里插入图片描述

我们训练的时候，当它的文章和正确的摘要配成一对的时候， $F$ 的值就很大，否则就很小。

在这里插入图片描述
在测试的时候就穷举所有可能的摘要，看哪个最匹配。

在这里插入图片描述

检索

在检索的时候，输入是一个关键字，输出是搜索结果的列表。

在这里插入图片描述

训练的时候，我们要知道输入某个关键字(query)的时候，输出哪个列表是最匹配的。

在这里插入图片描述

测试的时候，穷举所有可能的列表，看哪个列表得分最高。

在这里插入图片描述

虽然这个框架看起来很强大，但是这里有三个问题需要解决。

三个问题

在这里插入图片描述

$F(x,y)$ 长什么样子

在这里插入图片描述

当输入是个图像+边框，这个 $F(x,y)$ 是怎样的？
当输入是关键字+列表，这个 $F(x,y)$ 是怎样的？

如何解arg max问题

$y = \arg\,\max_{y \in Y} F(x,y)$

$Y$ 的空间可能非常大。

在这里插入图片描述
要做目标检测要穷举所有可能的边界。

给定训练数据，如何找到 $F(x,y)$

在这里插入图片描述

在训练的时候，我们希望正确的 $F(x,\hat{y})$ 的结果是最大的。

只要解决这三个问题，就能解结构化学习的问题。

与DNN的关系

结构化学习和深度神经网络是有关系的，怎么说。

在这里插入图片描述
假设现在要做手写数字识别，我们的 $F$ 是这样的

在这里插入图片描述

先把 $x$ 丢到DNN，得到一个向量叫 $N(x)$ ,接下来再输入 $y$ ，这个 $y$ 就是手写数字识别中的那个10维向量(只有一个维度是1其他都是0)。

然后把 $y$ 和 $N(x)$ 做交叉熵(CE)，把交叉熵的结果取负就是 $F(x,y)$ 。

接下来在测试的时候，需要穷举10个所有可能的结果。

在这里插入图片描述

每一个结果都代入这个函数中，看哪个结果让 $F(x,y)$ 最大。

所以这件时候和用交叉熵训练神经网络是一样的。
我们可以把 $f(x)=y$ 想成输入一个 $x,y$ 输出它们有多匹配。

参考

李宏毅机器学习

愤怒的可乐

发布了148 篇原创文章 · 获赞 57 · 访问量 13万+

私信关注

猜你喜欢

转载自blog.csdn.net/yjw123456/article/details/104828641

李宏毅机器学习——结构化学习(一)

李宏毅机器学习——结构化学习(二)

李宏毅机器学习——结构化支持向量机

李宏毅机器学习笔记一

机器学习：李宏毅强化学习笔记（一）Proximal Policy Optimization (PPO)

强化学习--李宏毅

李宏毅《机器学习深度学习》简要笔记（一）

李宏毅机器学习——无监督学习(一)

李宏毅机器学习-学习笔记

李宏毅机器学习——迁移学习

李宏毅机器学习——集成学习

李宏毅机器学习课程从入门到放弃（一）

李宏毅机器学习视频笔记一

【机器学习（李宏毅）】一、Learning Map

降维（一）PCA (李宏毅机器学习）

李宏毅机器学习——循环神经网络(一)

李宏毅机器学习2020笔记（一）

【李宏毅-强化学习笔记】一、深度强化学习surface

台大李宏毅机器学习课程

机器学习-台大李宏毅

【ML】李宏毅机器学习笔记

机器学习-简介速记(李宏毅)

李宏毅机器学习笔记

李宏毅机器学习笔记（1）

机器学习-Regression速记(李宏毅)

李宏毅机器学习笔记（4）

李宏毅机器学习笔记（3）

李宏毅机器学习笔记（2）

李宏毅机器学习笔记(5)

李宏毅机器学习课程

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)