개요Knowledge distillation에서 logit을 Standardization하는 것이 더 효과가 좋다는 것을 보여준다위 그림을 보았을 때, 실제로는 오른쪽 student가 더 예측을 잘했음에도 불구하고 오른쪽 student의 KL-divergence가 더 높습니다. standardization을 시키면 그 문제가 해결됩니다 저자는 probability function로 Softmax를 써야한다고 말한 후 수식을 통해 기존의 문제점을 지적하고 standardization을 쓰면 개선된다고 얘기합니다 Derivation of softmax in Classificationsoftmax는 엔트로피를 높이는 probability function 중 최적의 해이다probability function을 ..