Adan: Adaptive Nesterov Momentum algorithm for faster optimizing deep models
2022/09/01 1. abstract adaptive gradient algorithm은 수렴을 빠르게 하기 위해 gradient의 1차, 2차 적률을 추정하는 heavy ball acceleration의 moving average idea를 빌려왔다. 그러나 nesterov acceleration은 이론상 heavy ball acceleration보다 더 빠르게 수렴하고 또한 많은 경험적인 사례에서 adaptive gradient 세티에서 훨씬 덜 조사된다? 이 논문에서 우리는 deep neural network의 training 속도를 올리기 위해 ADAptive Nesterov momentum algorithm, 줄여서 Adan을 제안한다. Adan은 먼저 기본 Nesterov acclerati..