Search
Duplicate

AdamW

Created
3/9/2021, 5:42:00 AM
Tags
Empty
Per-parameter learning rate를 최초로 도입함. → Adaptive Gradient Method의 시작
second moment를 이용한 bias-correction을 차용하여 보다 정확한 update를 가능하게 만듦

RMSProp

RMSprop is an unpublished, adaptive learning rate method proposed by Geoff Hinton in Lecture 6e of his Coursera Class.
first moment를 이용해서 momentum을 계산함
Adagrad와 RMSProp를 결합한 알고리즘
RMSProp의 first moment를 차용하여 momentum을 계산함
Adagrad와 마찬가지로 per-parameter learning rate가 있음. Second moment를 이용한 bias-correction을 적용하여 보다 정확한 update를 가능하게 만듦

AdamW

LR ≠ Weight Decay in Adaptive Gradient Method

Normalized Weight Decay with AdamW

Drop-step LR scheduler

Warm Restart

Cosine Annealing

Cosine Annealing + Warm Restart

결론

우리는 Adam에 L2쓰면 된다고 착각하고 있었다. 근데 이건 사실 SGD에서만 성립하는 사실이었고, 그래서 특정 task에서 SGD+L2성능이 Adam+L2보다 더 잘나오는 경우가 꽤 있었다.
만약 Adam + L2를 쓰면 weight decay에 비해서 regularization 효과가 현저히 적어지는데, 그 이유는 regularization term이 momentum에 영향을 받기 때문이다.
그래서 momentum과 decouling된 weight decay가 필요하고 그게 바로 AdamW이다. (SGDW는 lr과 weight decay를 decoupling한 것)
기존에는 Adam+L2를 쓸지 or SGD+L2를 쓸지 둘다 실험해봐야 했었는데, 이제 AdamW를 쓰면 그러한 고민을 안해도 된다.
TOP