Better plain ViT baselines for ImageNet-1k

(arXiv)3 May 2022, Lucas Beyer Xiaohua Zhai Alexander Kolesnikov, Google Research, Brain Team Zurich

링크


기존 ViT의 기본적인 설정을 사소하게 수정하는 것만으로도 성능 개선이 가능함을 제시한다.

1. Introduction

기존 ViT모델은 대규모 사전 훈련에만 초점을 맞췄다. 본 논문에서는 기존 ViT의 심플함에 충실하면서도 비슷한 접근법을 이용해 결과를 얻을 수 있는 방법을 제안한다.

2. Experimental setup

(사전)훈련과 평가를 위해 ImageNet-1k dataset (ILSVRC2012)에 전적으로 초점을 맞췄으며 기존 ViT의 광범위한 수용성, 단순성, 확장성을 고수하고 아주 사소한 부분만 재점검할 뿐 새로운 것은 없다. image image

3. Results

개선된 설정에 대한 결과는 그림1에서 확인할 수 있다. image 이런 방식으로 훈련된 ViT는 80%의 성능을 내는 300 epoch까지 21시간 40분 걸림. 글고 성능도 좋아짐.

수정한 부분은 다음과 같음

  • Random Augmentation, Mixup 사용
  • Position Embedding : fixed 2D sin-cos
  • batch_size : 4096 -> 1024
  • class token -> GAP(Global Average Pooling)
  • Head : linear -> MLP image 최종적으로 epoch 300일 때를 보면, Original보다 약13%성능이 증가한 걸 볼 수 있다. 수정된 요소가 각각 어떤 영향을 미치는지 살펴보면 Head의 변경이 가장 작은 영향을 미치고 Random Augmentation+MixUp이 가장 큰 영향을 미친다.

4. Conclusion

image 단순한 것을 추구하는 것은 항상 가치 있다.