개요현대 신경망에서 정규화(Normalization) 계층은 필수적인 요소로 여겨짐.본 연구에서는 정규화 없이도 동일하거나 더 나은 성능을 내는 방법을 제시.Dynamic Tanh (DyT)라는 간단한 연산을 도입하여 정규화 계층을 대체함.DyT는 DyT(x) = tanh(αx)의 형태를 가지며, 입력값을 조정하고 극단값을 억제하는 역할 수행. 주요 기여정규화 계층이 없어도 학습 가능Layer Normalization (LN) 없이도 Transformer 모델이 안정적으로 학습됨을 실험적으로 입증.DyT는 tanh 형태의 S-커브를 활용하여 정규화 계층의 효과를 모방.다양한 영역에서 검증시각 인식, 언어 모델링, 음성 인식 등 다양한 태스크에서 DyT 적용.ViT, ConvNeXt, LLaMA 등의 최신..
1. abstract 전통적인 셀프 어텐션 메커니즘은 이차적(𝑂(𝑛²)) 복잡도를 갖기 때문에 긴 시퀀스에서 확장성이 제한됩니다. 우리는 FFTNet을 소개하는데, 이는 빠른 푸리에 변환(FFT)을 활용하여 𝑂(𝑛 log 𝑛) 시간 복잡도로 글로벌 토큰 혼합을 달성하는 적응형 스펙트럼 필터링 프레임워크입니다. FFTNet은 입력을 주파수 도메인으로 변환함으로써, 파르세발(Parseval)의 정리가 보장하는 직교성과 에너지 보존 특성을 활용하여 장거리 의존성을 효율적으로 포착합니다. 학습 가능한 스펙트럼 필터와 modReLU 활성화 함수를 통해 중요한 주파수 성분을 동적으로 강조함으로써 기존의 셀프 어텐션을 대체할 수 있는 엄밀하고 적응적인 방식을 제공합니다. Long Range Arena 및 I..
https://arxiv.org/abs/2501.17161?utm_source=pytorchkr&ref=pytorchkr SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trainingSupervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference bet..
대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다. 특히 OpenAI, Anthropic, Google 등의 연구 기관이 개발한 최신 모델들은 언어 이해와 생성뿐만 아니라 수학, 과학, 코딩 등 다양한 논리적 추론 작업에서 탁월한 성능을 보여주고 있습니다. 하지만 기존 연구들은 대부분 사전 학습(pre-training)과 지도학습(supervised fine-tuning)을 기반으로 하고 있으며, 이는 막대한 데이터와 연산 자원이 필요하다는 한계를 가지고 있습니다. 최근 들어 **사후 훈련(post-training)**이 전체 훈련 과정에서 중요한 요소로 떠오르고 있습니다. 이는 추론 작업의..
대규모 언어 모델(Large Language Model, LLM)의 발전은 자연어 처리(NLP) 작업에서 혁신적인 성과를 가져왔습니다. 특히, 검색-보강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식 기반을 활용하여 모델의 문맥 이해력을 크게 향상시키는 방법으로 주목받아 왔습니다. RAG는 특정 작업에서 외부 데이터 소스를 동적으로 검색하고 이를 기반으로 문맥에 적합한 응답을 생성하는 시스템입니다. 이는 개방형 질문 응답(Open-Domain Question Answering)과 같은 지식 집약적 작업에서 탁월한 성능을 발휘해 왔습니다. 하지만 RAG에는 다음과 같은 한계가 있습니다:실시간 검색은 시스템의 지연(latency)을 초래하여 사용자 경험을 저하시킬 수 ..
1. 검색 검색은 탐색형과 정보성으로 나뉜다. "캠핑"과 같은 검색은 구체적인 정보 취득보다는 탐색을 목적으로 검색하고, 발생 빈도가 높다 이런 검색은 개인화를 고려해서 캠핑 장비 등 검색 의도 단위로 문서 reranking이 이루어진다 반면, "19개월 잠만자요"같은 검색은 영유아가 잠만 자는 문제에 대한 구체적인 정보를 원하는 질문으로 다양하고 발생 빈도가 낮아 롱테일 질의라고 부른다. 이런 질의는 인기글이나 지식인 등 출처를 기준으로 나뉜 컬렉션 단위 랭킹이 이루어진다. 네이버 검색에는 "19개월 잠만자요" "신차구매시 기존 자동차보험 어떻게 해야하나요" "세입자가 안들어왔다고 돈을 안주는" "80대 요관암 말기 암 항암치료" 의도가 아주 세밀하나, 사용자들이 자주 검색하지는 않는 다양한 롱테일..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.