蒸馏学习框架小抄(1)

其他 2022-08-19 09:53:01 阅读次数: 0

前言

大模型大行其道，但是当实际落地时，需要考虑硬件和运行功耗，因此企业更希望部署的是“小”模型。因此学习一些蒸馏技术就成为一些算法工程师必备的技能点。

_

MGD

论文: Masked Generative Distillation
代码: https://github.com/yzd-v/MGD

Dist

Knowledge Distillation from A Stronger Teacher
代码: https://github.com/hunto/DIST_KD

伪代码

import torch.nn as nn

def cosine_similarity(a, b, eps=1e-8):
	return (a * b).sum(1) / (a.norm(dim=1) * b.norm(dim=1) + eps)

def pearson_correlation(a, b, eps=1e-8):
	return cosine_similarity(a - a.mean(1).unsqueeze(1), b - b.mean(1).unsqueeze(1), eps)

def inter_class_relation(y_s, y_t):
	return 1 - pearson_correlation(y_s, y_t).mean()

def intra_class_relation(y_s, y_t):
	return inter_class_relation(y_s.transpose(0, 1), y_t.transpose(0, 1))

class DIST(nn.Module):
	def __init__(self, beta, gamma):
		super(DIST, self).__init__()
		self.beta = beta
		self.gamma = gamma

	def forward(self, z_s, z_t):
		y_s = z_s.softmax(dim=1)
		y_t = z_t.softmax(dim=1)
		inter_loss = inter_class_relation(y_s, y_t)
		intra_loss = intra_class_relation(y_s, y_t)
		kd_loss = self.beta * inter_loss + self.gamma * intra_loss
		return kd_loss

Teacher-student

论文: Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

代码: https://github.com/yyliu01/PS-MT

博文: CVPR 2022 | PS-MT：半监督语义分割需要更稳定的一致性训练！

蒸馏骨干

TinyViT

论文: TinyViT: Fast Pretraining Distillation for Small Vision Transformers

代码: https://github.com/microsoft/Cream/tree/main/TinyViT

博文: ECCV22｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

半监督

DTG-SSOD

22.07
论文 DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection
博文: DTG-SSOD：最新半监督检测框架，Dense Teacher

数据蒸馏

R2L

2022 ECCV
论文: R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis
博文: ECCV 2022｜Snap&东北大学提出R2L：用数据蒸馏加速NeRF
代码: https://github.com/snap-research/R2L

猜你喜欢

转载自blog.csdn.net/weixin_43850253/article/details/126147230

蒸馏学习框架小抄(1)

对比学习模型小抄(1)

知识蒸馏学习笔记1--Distilling the Knowledge in a Neural Network

语音合成模型小抄(1)

点云模型小抄(1)

风格迁移模型小抄(1)

全景分割模型小抄(1)

知识蒸馏学习记录

知识蒸馏---学习笔记

【CSS学习小抄】简要入门

超分辨率模型小抄(1)

NLP常用Backbone模型小抄(1)

无监督图像掩码模型小抄(1)

Transformer系列目标检测模型小抄(1)

CV轻量级backbone模型小抄(1)

（等待填坑）深度学习——蒸馏loss、蒸馏学习

深度学习：蒸馏和剪枝

知识蒸馏入门视频学习

知识蒸馏学习记录（二）

值得收藏的27个机器学习的小抄

我的Go语言学习小抄

[AI]算法小抄-目前最完善的RLHF框架：AlpacaFarm

Hibernate框架学习1

django框架学习-1

停止学习框架(1)

spring 框架学习-1

springMVC框架学习-1

MyBatis框架学习-1

React框架学习1

Pytorch框架的学习（1）

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

周排行

自媒体文章如何提高原创度以及如何检测原创度

开启qq邮箱的smtp服务

Qt程序单次启动（QSingleApplication类）

国外的外包网站

更新IDEA主题——放飞代码风格

cocos2dx 实现搓牌效果（翻牌效果），包括铺平动画

dict和json之间的互相转换

angular的一些思考

. Fibonacci数列是这样定义的： F[0] = 0 F[1] = 1 for each i ≥ 2: F[i] = F[i-1] + F[i-2] 因此，Fibonacci数列就形如：0, 1

洛谷P1064 金明的预算方案

每日归档

更多

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)