요약일반적으로 teacher의 특징을 student에 학습시키는 knowledge distillation과 달리,teacher 모델 없이 하나의 모델에서 깊은 layer의 특징을 얕은 layer에 학습시킨다https://arxiv.org/pdf/1905.08094.pdf 모델구조 ResNet의 각 ResBlock 마다 output이 연결되어있습니다 (deep supervision과 유사)각 ResBlock은 Ground Truth만을 통해서 학습되는것이 아니라,가장 깊은 classifier과 Softmax를 통해 각각의 feature와 softmax가 학습됩니다. ${\begin{align} loss &= \sum_{i}^{C}loss_i \\ &= \sum_{i}^{C}((1-\alpha) ..