prefacio
Los modelos grandes son populares, pero cuando realmente se implementan, se debe considerar el hardware y el consumo de energía operativo, por lo que las empresas prefieren implementar modelos "pequeños". Por lo tanto, aprender algunas técnicas de destilación se ha convertido en un punto de habilidad necesario para algunos ingenieros de algoritmos.
_
DMG
Papel: Código de destilación generativa enmascarada : https://github.com/yzd-v/MGD
Distrito
Destilación de conocimiento de un
código de maestro más fuerte: https://github.com/hunto/DIST_KD
El pseudo-código
import torch.nn as nn
def cosine_similarity(a, b, eps=1e-8):
return (a * b).sum(1) / (a.norm(dim=1) * b.norm(dim=1) + eps)
def pearson_correlation(a, b, eps=1e-8):
return cosine_similarity(a - a.mean(1).unsqueeze(1), b - b.mean(1).unsqueeze(1), eps)
def inter_class_relation(y_s, y_t):
return 1 - pearson_correlation(y_s, y_t).mean()
def intra_class_relation(y_s, y_t):
return inter_class_relation(y_s.transpose(0, 1), y_t.transpose(0, 1))
class DIST(nn.Module):
def __init__(self, beta, gamma):
super(DIST, self).__init__()
self.beta = beta
self.gamma = gamma
def forward(self, z_s, z_t):
y_s = z_s.softmax(dim=1)
y_t = z_t.softmax(dim=1)
inter_loss = inter_class_relation(y_s, y_t)
intra_loss = intra_class_relation(y_s, y_t)
kd_loss = self.beta * inter_loss + self.gamma * intra_loss
return kd_loss
Maestro - estudiante
论文: Profesores medios perturbados y estrictos para la segmentación semántica semisupervisada
Código: https://github.com/yyliu01/PS-MT
Publicación de blog: CVPR 2022 | PS-MT: ¡La segmentación semántica semisupervisada requiere un entrenamiento de consistencia más estable!
columna vertebral destilada
TinyViT
Documento: TinyViT: destilación rápida previa al entrenamiento para transformadores de visión pequeña
Código: https://github.com/microsoft/Cream/tree/main/TinyViT
Publicación de blog: ECCV22|Solo el 11% de los parámetros pueden ser mejores que Swin, Microsoft propone un método rápido de destilación previa al entrenamiento TinyViT
semi-supervisado
DTG-SSOD
22.07
Paper DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection
Publicación de blog: DTG-SSOD: El último marco de detección semisupervisado, Dense Teacher
destilación de datos
R2L
Documento del ECCV de 2022
: R2L : destilación del campo de radiación neuronal en campo de luz neuronal para una síntesis eficiente de la vista novedosa