Hoja de referencia del marco de aprendizaje sobre destilación (1)

prefacio

Los modelos grandes son populares, pero cuando realmente se implementan, se debe considerar el hardware y el consumo de energía operativo, por lo que las empresas prefieren implementar modelos "pequeños". Por lo tanto, aprender algunas técnicas de destilación se ha convertido en un punto de habilidad necesario para algunos ingenieros de algoritmos.



_

DMG


Papel: Código de destilación generativa enmascarada : https://github.com/yzd-v/MGD



Distrito


Destilación de conocimiento de un
código de maestro más fuerte: https://github.com/hunto/DIST_KD

El pseudo-código

import torch.nn as nn

def cosine_similarity(a, b, eps=1e-8):
	return (a * b).sum(1) / (a.norm(dim=1) * b.norm(dim=1) + eps)

def pearson_correlation(a, b, eps=1e-8):
	return cosine_similarity(a - a.mean(1).unsqueeze(1), b - b.mean(1).unsqueeze(1), eps)

def inter_class_relation(y_s, y_t):
	return 1 - pearson_correlation(y_s, y_t).mean()

def intra_class_relation(y_s, y_t):
	return inter_class_relation(y_s.transpose(0, 1), y_t.transpose(0, 1))

class DIST(nn.Module):
	def __init__(self, beta, gamma):
		super(DIST, self).__init__()
		self.beta = beta
		self.gamma = gamma

	def forward(self, z_s, z_t):
		y_s = z_s.softmax(dim=1)
		y_t = z_t.softmax(dim=1)
		inter_loss = inter_class_relation(y_s, y_t)
		intra_loss = intra_class_relation(y_s, y_t)
		kd_loss = self.beta * inter_loss + self.gamma * intra_loss
		return kd_loss



Maestro - estudiante


论文: Profesores medios perturbados y estrictos para la segmentación semántica semisupervisada

Código: https://github.com/yyliu01/PS-MT

Publicación de blog: CVPR 2022 | PS-MT: ¡La segmentación semántica semisupervisada requiere un entrenamiento de consistencia más estable!



columna vertebral destilada

TinyViT

Documento: TinyViT: destilación rápida previa al entrenamiento para transformadores de visión pequeña

Código: https://github.com/microsoft/Cream/tree/main/TinyViT


Publicación de blog: ECCV22|Solo el 11% de los parámetros pueden ser mejores que Swin, Microsoft propone un método rápido de destilación previa al entrenamiento TinyViT



semi-supervisado

DTG-SSOD

22.07
Paper DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection
Publicación de blog: DTG-SSOD: El último marco de detección semisupervisado, Dense Teacher



destilación de datos

R2L

Documento del ECCV de 2022
: R2L : destilación del campo de radiación neuronal en campo de luz neuronal para una síntesis eficiente de la vista novedosa

Supongo que te gusta

Origin blog.csdn.net/weixin_43850253/article/details/126147230
Recomendado
Clasificación