当前位置:首页 > 科技资讯 >

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望科技资讯

来源:天之家 发表于:2021-03-16 09:14 阅读:

导读:新智元推荐 来历:知乎 作者:傅斯年Walton 【新智元导读】 本文是一篇常识蒸馏方面的论文回首总结,总共涉及了20篇相关的paper。作者先容了常识蒸馏的三种主要要领Logits(Response)-based 、Feature-based、Relation-based以及常识蒸馏的相关应用。 最近给...

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

新智元推荐

来历:知乎

作者:傅斯年Walton

【新智元导读】本文是一篇常识蒸馏方面的论文回首总结,总共涉及了20篇相关的paper。作者先容了常识蒸馏的三种主要要领Logits(Response)-based 、Feature-based、Relation-based以及常识蒸馏的相关应用。

最近给公司内里的同学做了一个KD的survey,趁热把我回首研究的一些对象记录下来,算是回馈知乎社区,一直以来,从内里罗致了许多营养,但没有怎么输出优质内容。

提要

Intro & Roadmap

KD主要要领

Applications(NLP-BERT)

QA

Intro & Roadmap整个模子压缩优化常识布局如下所示,KD属于模子压缩算法的一种,从2014年成长至今。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

Bucilua et al. (2006) 首次提出通过常识蒸馏压缩模子的思想,可是没有实际的事情叙述。之后Hilton et al. (2014)第一次正式界说Distillation,并提出相应的练习要领。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

一个典范的KD框架如下图所示,由三个part构成,Teacher model,student model 和Knowledge transfer,整个进程是在有监视的data数据集上练习完成。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

下面先容本年的两篇survey文章,引用他们的Roadmap图,回首下已往6年,研究者主要在哪些偏向参加KD的研究和推进事情。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

Lin Wang and Kuk-Jin Yoon. Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks. CoRR, 2020

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

Jianping Gou, Baosheng Yu, Stephen John Maybank, Dacheng Tao . Knowledge Distillation: A Survey. 2020

KD主要要领

作者参考这篇文章,从Logits(Response)-based, Feature-based, 和Relation-based knowledge三种维度去先容KD在已往6年的一些高引用paper。

Logits(Response)-based knowledge从下图直观感觉到,knowledge从teacher model的output layer进修获得;

Feature-based 是从一些中间hidden layers进修knowledge;Relation-based则是进修input-hidden-output之间的干系。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

为了各人利便阅读,先列出来三种要领主要代表paper:

1.Logits(Response)-based

Distilling the Knowledge in a Neural Network Hilton NIPS 2014

Deep mutual learning CVPR 2018

On the efficacy of knowledge distillation, ICCV 2019

Self-training with noisy student improves imagenet classification 2019

Training deep neural networks in generations: A more tolerant teacher educates better students AAAI 2019

Distillation-based training for multi-exit architectures ICCV 2019

2. Feature-based

Fitnets: Hints for thin deep nets. ICLR 2015

Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. ICLR 2017

3. Relation-based

A gift from knowledge distillation: Fast optimization, network minimization and transfer learning CVPR 2017

Similarity-preserving knowledge distillation ICCV 2019

Logits(Response)-based Knowledge

Distilling the Knowledge in a Neural Network Hilton NIPS 2014

KD的开山之作,焦点思想是利用softed labels去进修class distribution,详细先练习好一个teacher网络,然后将teacher的网的输出功效q作为student网络的方针,练习student网络,使得student网络的功效p靠近q。

提出的新idea是softmax的变形,引入一个变量T去发生softed labels。soft target 与hard target区别如下图所示。

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

损失函数如下:

用20篇论文走完常识蒸馏在 2014-2020 年的技能希望

T凡是配置为1,在paper中,ranging from 1 to 20。按照履历,student比teacher模子小许多时,T配置小一点。