机器学习：Self-supervised Learning for Speech and image - 代码天地

机器学习：Self-supervised Learning for Speech and image

业界资讯 2023-08-18 21:14:26 阅读次数: 0

在这里插入图片描述

review : self-supervised learning for text

在这里插入图片描述

1. Self-supervised learning for speech

在这里插入图片描述
使用Speech版本的bert能比较好的作用于语音任务上，如果没有self-supervised的话，别的模型可能需要上万小时的数据。

Superb

在这里插入图片描述

ytb课程：MpsVE60iRLM
工具：s3prl

2. Self-supervised Learning for Image

在这里插入图片描述

3. Generative Approaches

在这里插入图片描述

Speech

应用于语音上

Bert系列

把声音信号的某些部分盖起来，让模型还原回来
在这里插入图片描述

GPT系列
给定一个文字，预测下一个文字是什么；给定一段声音信号，预测接下来的语音什么：

文本是一个词，声音要大于三个词。

Image

应用于图像上，拉直成一维向量
在这里插入图片描述
然后盖住某些像素，预测下一个像素；或者给定一段像素，预测后面的像素是什么，之后接下游任务，比如分类。

4. Predictive Approach

在这里插入图片描述
语音和图像相较于文本来说包含了非常多的细节，往往更加困难一些。

Image——预测图片是否被旋转过

在这里插入图片描述

Image——内容预测

预测两个块第二个小块在第一个小块的哪个方向。
在这里插入图片描述

不做生成就能自监督学习。
在这里插入图片描述
让机器预测产生cluster的结果。

5. Contrastive Learning——对比学习

在这里插入图片描述

让相同的向量越近越好，让不相同的向量越远越好。
但是不知道类别，怎么做呢？

SimCLR

对图像做data augmentation的图片是positive pair，如果是另外一张图片的data augmentation的图片是negative pair。
在这里插入图片描述
data augmentation：

random crop
color distortions
gaussian blur

语音版本的speech simclr

MoCo

在这里插入图片描述

语音版本的对比学习

CPC
Wav2Vec

在这里插入图片描述
可以将encoder用在下游任务里面或者将encoder和predicter一起用在下游任务里面。

在这里插入图片描述

将token盖起来，让bert学会做填空：

在这里插入图片描述

wav2vec 2.0版本将encoder和bert encode一起联合起来训练，将输入的某些部分mask，用输出的向量来预测mask的tokek是哪一个，越mask的3越近越好，与旁边的越远越好。

在这里插入图片描述
bert其实也是一种对比学习，也是让正确的答案越近越好

在这里插入图片描述

分类任务：分数越大越好
对比学习任务：分数越小越好

分类任务如果类别很多的话，random pair不可能穷举所有的其他组合，可以采用contrasive方式学习，让正确的embedding与last layer output的乘积越小越好，随机选取部分不正确的embedding与last layer output的乘积越大越好。

在这里插入图片描述
比较难穷举所有的负样本，只是想让embedding最能代表它本身，可以将bert当做对比学习的思想。

难点

选择负样本：

选择够难的负样本，但不要太难的负样本（比如同类两张猫，将猫的向量也拉远了）

下面介绍避开挑选负样本的方法

6. Bootstrapping Approaches

在这里插入图片描述
没有负样本的话，只要给两个图片就给出两个非常接近的向量，这不是我们想要的结果：

只用正样本的话，一条通道接一个predictor，让两台通道产生embedding越相近越好，但只更新右边的通道，训练好了后将右边的通道参数同步到左边的通道：
在这里插入图片描述

左右两边的架构要有点不同
只训练某一边的encoder，再把训练好的参数复制到另外一边

两条通道不一样，让两个无法一起作弊，也可以以知识蒸馏的方式理解上面架构：

在这里插入图片描述

相关的算法：

Image
- BYOL
- SimSiam
Speech
- Data2vec

7.Simply Extra Regularization

在这里插入图片描述
给的是一个batch，要求每个维度的差别要大于一个阈值：

最关键的是variance，后续可以加点优化Covariance，语音方向有类似DeloRes

总结

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/uncle_ll/article/details/131798275

机器学习：Self-supervised Learning for Speech and image

wav2vec2.0: A Framework for Self-Supervised Learning of Speech Representations

self-supervised learning

Self2Self With Dropout: Learning Self-Supervised Denoising From Single Image【使用单张图像进行自监督学习去噪】

用于语音识别的多任务自我监督学习(Multi-task self-supervised learning for robust speech recognition )

Preservational Learning Improves Self-supervised Medical Image Models by Reconstructing Diverse Cont

Accurate prediction of molecular targets using a self-supervised image representation learning ...

Contrastive Self-Supervised Learning

机器学习：self supervised learning

自监督学习 | (1) Self-supervised Learning入门

自监督学习 | (1) Self-supervised Learning入门

自监督学习（self-supervised learning）（20201124）

自监督学习（SSL）Self-Supervised Learning

Effectiveness of self-supervised pre-training for speech recognition

Self-supervised learning and computer vision

Self-Supervised Learning for Contextualized Extractive Summarization

Self-Supervised Learning 入门介绍

NTU 课程笔记：self-supervised learning

SelFlow: Self-Supervised Learning of Optical Flow

Self-supervised Graph Learning for Recommendation(SGL)

Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentatio

【论文笔记之speech separation overview】Supervised Speech Separation Based on Deep Learning-An Overview

论文阅读 —— Graph Self-Supervised Learning: A Survey （自监督图学习综述）

Unsupervised Single Image Deraining with Self-supervised Constraints论文阅读

self-supervised text erasing with controllable image synthesis

Fusion from Decomposition: A Self-Supervised Decomposition Approach for Image Fusion

IDR: Self-Supervised Image Denoising via Iterative Data Refinement

【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》

Self-Supervised Learning of Pretext-Invariant Representation

Distilling Visual Priors from Self-Supervised Learning

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)