导读:新智元推荐 来历:知乎 作者:傅斯年Walton 【新智元导读】 本文是一篇常识蒸馏方面的论文回首总结,总共涉及了20篇相关的paper。作者先容了常识蒸馏的三种主要要领Logits(Response)-based 、Feature-based、Relation-based以及常识蒸馏的相关应用。 最近给...
新智元推荐
来历:知乎
作者:傅斯年Walton
【新智元导读】本文是一篇常识蒸馏方面的论文回首总结,总共涉及了20篇相关的paper。作者先容了常识蒸馏的三种主要要领Logits(Response)-based 、Feature-based、Relation-based以及常识蒸馏的相关应用。
最近给公司内里的同学做了一个KD的survey,趁热把我回首研究的一些对象记录下来,算是回馈知乎社区,一直以来,从内里罗致了许多营养,但没有怎么输出优质内容。
提要
Intro & Roadmap
KD主要要领
Applications(NLP-BERT)
QA
Intro & Roadmap整个模子压缩优化常识布局如下所示,KD属于模子压缩算法的一种,从2014年成长至今。
Bucilua et al. (2006) 首次提出通过常识蒸馏压缩模子的思想,可是没有实际的事情叙述。之后Hilton et al. (2014)第一次正式界说Distillation,并提出相应的练习要领。
一个典范的KD框架如下图所示,由三个part构成,Teacher model,student model 和Knowledge transfer,整个进程是在有监视的data数据集上练习完成。
下面先容本年的两篇survey文章,引用他们的Roadmap图,回首下已往6年,研究者主要在哪些偏向参加KD的研究和推进事情。
Lin Wang and Kuk-Jin Yoon. Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks. CoRR, 2020
Jianping Gou, Baosheng Yu, Stephen John Maybank, Dacheng Tao . Knowledge Distillation: A Survey. 2020
KD主要要领
作者参考这篇文章,从Logits(Response)-based, Feature-based, 和Relation-based knowledge三种维度去先容KD在已往6年的一些高引用paper。
Logits(Response)-based knowledge从下图直观感觉到,knowledge从teacher model的output layer进修获得;
Feature-based 是从一些中间hidden layers进修knowledge;Relation-based则是进修input-hidden-output之间的干系。
为了各人利便阅读,先列出来三种要领主要代表paper:
1.Logits(Response)-based
Distilling the Knowledge in a Neural Network Hilton NIPS 2014
Deep mutual learning CVPR 2018
On the efficacy of knowledge distillation, ICCV 2019
Self-training with noisy student improves imagenet classification 2019
Training deep neural networks in generations: A more tolerant teacher educates better students AAAI 2019
Distillation-based training for multi-exit architectures ICCV 2019
2. Feature-based
Fitnets: Hints for thin deep nets. ICLR 2015
Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. ICLR 2017
3. Relation-based
A gift from knowledge distillation: Fast optimization, network minimization and transfer learning CVPR 2017
Similarity-preserving knowledge distillation ICCV 2019
Logits(Response)-based Knowledge
Distilling the Knowledge in a Neural Network Hilton NIPS 2014
KD的开山之作,焦点思想是利用softed labels去进修class distribution,详细先练习好一个teacher网络,然后将teacher的网的输出功效q作为student网络的方针,练习student网络,使得student网络的功效p靠近q。
提出的新idea是softmax的变形,引入一个变量T去发生softed labels。soft target 与hard target区别如下图所示。
损失函数如下:
T凡是配置为1,在paper中,ranging from 1 to 20。按照履历,student比teacher模子小许多时,T配置小一点。
大乱斗游戏《动物之鬪:竞技场》现已在Steam平台发售,国区开启首周特惠,折后价45元,支持中文。...[详细]
阅读(415)2021-03-30
阅读(415)2021-03-30
阅读(415)2021-03-30
阅读(415)2021-03-30
阅读(415)2021-03-30
阅读(415)2021-03-29
阅读(415)2021-03-29
阅读(415)2021-03-29
阅读(415)2021-03-29
阅读(415)2021-03-29
阅读(415)2019-11-07
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2019-11-05
阅读(415)2020-03-13
阅读(415)2019-11-05
阅读(415)2019-11-05