蒸留概要の圧縮アルゴリズムモデル
元の文書:https://www.yuque.com/lart/gw5mta/scisva
2019年9月7日生産
原稿の脳画像:http://naotu.baidu.com/file/f60fea22a9ed0ea7236ca9a70ff1b667?token=dab31b70fffa034a(kdxj)
出力登録
ニューラルネットワークにおける知識を蒸留(NIPS 2014)
- 教師は、ソフトターゲットのモデルを使用します
ディープ相互学習(CVPR 2018)
- 訓練より多くの学生が促進し、相互にネットワークに交流
ボーンアゲインニューラルネットワーク(2018 ICML)
- 学生によるI I + 1、すべての学生を統合するための最後のモデルを学生を養成するために、教員研修から1人の学生、
直接登録
フィットアテンションマップ
注目の転送を経由して畳み込みニューラルネットワークのパフォーマンスの改善(ICLR 2017):注意にもっと注意を払います
- 前記各ステージ登録単一チャネルを介してチャネル注意図が得られた融合後
Learning Lightweight Lane Detection CNNs by Self Attention Distillation(ICCV 2019)
- 使网络各阶段的特征通过通道融合计算注意力图,配准早期的输出注意力图
拟合特征
FitNets : Hints for Thin Deep Nets(ICLR2015)
- 第一阶段使用一个回归模块来配准部分学生网络和部分教师网络的输出特征,第二阶段使用soft targets
关系配准
拟合特征两两之间的关系
A Gift from Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning(CVPR 2017)
- 计算相邻阶段特征个通道之间的关系进行配准
Graph-based Knowledge Distillation by Multi-head Attention Network(BMVC 2019)
- 使用non-local挖掘相邻阶段特征奇异值分解处理后的特征之间的关系
拟合输出中蕴含的关系
Similarity-Preserving Knowledge Distillation(ICCV 2019)
- 整个batch内部样本对应输出特征之间的关系
Relational Knowledge Distillation(CVPR 2019)
- batch中任意二元数据对应输出的距离关系和三元组输出对应角度关系
Data Distillation: Towards Omni-Supervised Learning(CVPR2018)
- 教师模型与学生模型结构可同可不同,会集成不同变换后的样本对应的教师网络的输出
平均教師は、より良いロールモデルです:重量平均一貫ターゲットは半教師深い学習結果(NIPS 2017)を改善します
- 、指数移動平均を計算するサイクルで一貫性制約を教師、生徒のモデルパラメータの重みと重みパラメータの現在のモデルを使用して、半教師付き方法
関係自身の内部フィッティング機能
効率的なセマンティックセグメンテーション(CVPR 2019)のための知識アダプテーション
- 教師モデルは、エンコーダからの変換特性を使用して、学生がモデル特徴教師を適応させるモデル適応ユニットを使用します
セマンティックセグメンテーションのための構造化された知識蒸留(CVPR 2019)
- 行うためのソフトターゲットだけでなく、より高度な情報のGaNフィットと組み合わせます