Loading...

Adan: Adaptive Nesterov Momentum algorithm for faster optimizing deep models

2022/09/01 1. abstract adaptive gradient algorithm은 수렴을 빠르게 하기 위해 gradient의 1차, 2차 적률을 추정하는 heavy ball acceleration의 moving average idea를 빌려왔다. 그러나 nesterov acceleration은 이론상 heavy ball acceleration보다 더 빠르게 수렴하고 또한 많은 경험적인 사례에서 adaptive gradient 세티에서 훨씬 덜 조사된다? 이 논문에서 우리는 deep neural network의 training 속도를 올리기 위해 ADAptive Nesterov momentum algorithm, 줄여서 Adan을 제안한다. Adan은 먼저 기본 Nesterov acclerati..

2022. 9. 2. 15:38

Are Transformers Effective for Time Series Forecasting?

2022/08/15 1. abstract long term time series forecasting(LTSF)에 대해 transformer 기반의 해결책들이 최근에 많이 뜨고 있다. 과거 몇년간 성능이 증가하고 있음에도 불구하고 이 주제에서 이런 연구의 유효성에 대해 의문을 품고 있었다. 특히 transformer가 틀림없이 긴 sequence에서 원소들 사이에 의미적인 연관관계를 추출하는데 가장 성공한 solution이라는 것은 분명하다. 그러나 time series 모델링에서 우리는 연속적이면서 순서를 가진 점의 집합에서 시간적인 관계를 추출해야한다. positional encoding과 transformer의 부분 수열에 token을 쓰는 것이 어느정도 순서적인 정보를 보유하는데 도움을 주지만 순..

2022. 8. 30. 02:31

Image as a Foreign Language: BEiT pretraining for all vision and Vision language tasks

2022/08/22 1. abstract language, vision, multimodal pretraining의 큰 수렴이 부상하고 있다. 이 논문에서는 우리는 일반적인 목적의 multimodal foundation model로 BEiT-3을 소개한다. 이는 vision과 vision language task에서 SOTA 성능을 달성했다. 특히 우리는 3가지 backbone architecture, pretraining task, model scaling up의 3가지 측면에서 커다란 수렴을 달성했다. 우리는 일반적인 목적의 모델링을 위한 Multiway transformer을 소개하고자 하는데, modular architecture로 deep fusion, modality-specific encod..

2022. 3. 2. 21:53

on device AI를 활용하는 사례

1. on-device AI model의 size는 점점 커지면서 그동안 model과는 비교할 수 없을 정도의 압도적인 괴물 model GPT-3가 등장했다 2021년 등장한 switch transformer은 이 GPT-3보다 9.14배나 더 큰 모델 GPT-3는 1번 training하는 것에만 한국 돈으로 약 50억 정확도를 80% > 90% > 99%로 10%정도 올리고 싶다고 50억을 쓰는게 물론 정확도를 높이는 것은 중요하지만 정말 맞는 일인가? 2. lightweight AI의 필요성 TinyML, on-device AI, Edge AI, Embedded AI, Edge intelligence 등으로 불림 소비자가 반응하는거에 빠르게 제공해줬으면(real time customer engagem..

2022. 1. 17. 21:26

Computer vision이란?

1. Computer vision이란? 사진이나 비디오 등 영상정보로부터 장면의 본질인 3D 모델을 구하는 기술을 Graphics라고 한다. 반대로 3D 모델, 어떤 물체의 본질을 가지고 있을 때 이것을 영상이나 비디오로 만드는 기술을 Computer vision이라고 한다. computer vision을 inverse graphics라고도 부른다 가장 먼저 딥러닝 기술에 의해 paradigm shift가 일어난 분야가 computer vision 2. AI란 무엇인가? 사람의 지능을 컴퓨터 시스템으로 구현한 것 지능의 범위가 도대체 무엇? ‘사고하고 인과관계를 분석하는 것 외에도 시각이나 소리에 관한 지각능력, 이해에 관련된 내용도 포함한다 옥스포드에서 정의한 AI는 인간 지능의 범위를 시각 인지능력부..