개요현대 신경망에서 정규화(Normalization) 계층은 필수적인 요소로 여겨짐.본 연구에서는 정규화 없이도 동일하거나 더 나은 성능을 내는 방법을 제시.Dynamic Tanh (DyT)라는 간단한 연산을 도입하여 정규화 계층을 대체함.DyT는 DyT(x) = tanh(αx)의 형태를 가지며, 입력값을 조정하고 극단값을 억제하는 역할 수행. 주요 기여정규화 계층이 없어도 학습 가능Layer Normalization (LN) 없이도 Transformer 모델이 안정적으로 학습됨을 실험적으로 입증.DyT는 tanh 형태의 S-커브를 활용하여 정규화 계층의 효과를 모방.다양한 영역에서 검증시각 인식, 언어 모델링, 음성 인식 등 다양한 태스크에서 DyT 적용.ViT, ConvNeXt, LLaMA 등의 최신..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.