Mega: Moving Average Equipped Gated Attention

1. abstract

transformer attention에서 weak inductive bias와 quadratic 계산복잡도를 포함해서, 디자인을 선택하는 것은 long sequence를 모델링할 때 제한 사항으로 작용한다.

이 논문에서 우리는 MEGA를 제안한다. 단순하며 이론적으로 근거가 있고,

단일한 gated attention에 exponential moving average를 사용하여, 위치를 인식(position-aware)하는 local dependency의 inductive bias를 위치를 무시하는(position-agnostic) attention 메커니즘과 통합시킨다.

우리는 게다가 선형 시공간 복잡도를 가졌지만,

오직 최소의 loss를 만들어내서 효율적으로 전체 sequence를 고정된 길이의 여러개의 chunk로 분리시키는 방법을 제공하는 MEGA의 다양한 변형을 제안한다.

다양한 범위의 sequence modeling benchmark, image, speech classification에서의 광범위한 실험 결과는 MEGA가 다른 transformer의 변형이나 상태공간 모델들 같은 다른 sequence 모델들보다 상당한 개선을 달성했다는 것을 보여준다.

https://paperswithcode.com/paper/mega-moving-average-equipped-gated-attention

Papers with Code - Mega: Moving Average Equipped Gated Attention

🏆 SOTA for Long-range modeling on LRA (Avg metric)

paperswithcode.com

728x90

'AI 논문 > AI trend research' 카테고리의 다른 글

TabPFN: A Transformer That Solves Small Tabular Classification Problems in a Second (0)	2022.10.28
Multilingual BERT has an accent: Evaluating English influences on fluency in multilingual models (0)	2022.10.18
Ask Me Anything: A simple strategy for prompting language models (0)	2022.10.07
Efficient Few-Shot Learning Without Prompts (0)	2022.10.07
CenterFormer: Center-based transformer for 3D object detection (0)	2022.09.15

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Mega: Moving Average Equipped Gated Attention

'AI 논문 > AI trend research' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역