Mega: Moving Average Equipped Gated Attention

1. abstract

 

transformer attention에서 weak inductive bias와 quadratic 계산복잡도를 포함해서, 디자인을 선택하는 것은 long sequence를 모델링할 때 제한 사항으로 작용한다.

 

이 논문에서 우리는 MEGA를 제안한다. 단순하며 이론적으로 근거가 있고,

 

단일한 gated attention에 exponential moving average를 사용하여, 위치를 인식(position-aware)하는 local dependency의 inductive bias를 위치를 무시하는(position-agnostic) attention 메커니즘과 통합시킨다.

 

우리는 게다가 선형 시공간 복잡도를 가졌지만,

 

오직 최소의 loss를 만들어내서 효율적으로 전체 sequence를 고정된 길이의 여러개의 chunk로 분리시키는 방법을 제공하는 MEGA의 다양한 변형을 제안한다. 

 

다양한 범위의 sequence modeling benchmark, image, speech classification에서의 광범위한 실험 결과는 MEGA가 다른 transformer의 변형이나 상태공간 모델들 같은 다른 sequence 모델들보다 상당한 개선을 달성했다는 것을 보여준다.

 

 

https://paperswithcode.com/paper/mega-moving-average-equipped-gated-attention

 

Papers with Code - Mega: Moving Average Equipped Gated Attention

🏆 SOTA for Long-range modeling on LRA (Avg metric)

paperswithcode.com

 

TAGS.

Comments