1. RNN 딥러닝이나 머신러닝 분야에서 텍스트는 단어가 연결된 문장 형태의 데이터를 일컫는다. 이처럼 작은 단위의 데이터가 연결되고 그 길이가 다양한 데이터의 형태를 시퀀스(sequence)라고 한다. 텍스트, 오디오, 시계열같은 데이터는 sequence이다. 역사적으로 이러한 시퀀스 데이터를 처리하기 위해 RNN이나 transformer의 2가지 아키텍처로 대표되는 다양한 모델을 사용했다. transformer가 개발되기 전에는 RNN을 활용해 텍스트를 생성했다. RNN은 위 그림같이 입력하는 텍스트를 순차적으로 처리해서 다음 단어를 예측한다. 특징으로는 모델이 하나의 잠재 상태 hidden state에 지금까지 입력 텍스트의 맥락을 압축한다는 점이다. 첫번째 입력인 '검은'이 모델을 통과하면 h..
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html?utm_source=pytorchkr&ref=pytorchkr Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm BlogsAlignment to human preferences and strengthen chat capabilities with direct preference optimization (DPO).rocm.blogs.amd.com https://discuss.pytorch.kr/t/amd-mi300x-gpu-instella-3b/6297 AMD, ..
1. abstract 전통적인 셀프 어텐션 메커니즘은 이차적(𝑂(𝑛²)) 복잡도를 갖기 때문에 긴 시퀀스에서 확장성이 제한됩니다. 우리는 FFTNet을 소개하는데, 이는 빠른 푸리에 변환(FFT)을 활용하여 𝑂(𝑛 log 𝑛) 시간 복잡도로 글로벌 토큰 혼합을 달성하는 적응형 스펙트럼 필터링 프레임워크입니다. FFTNet은 입력을 주파수 도메인으로 변환함으로써, 파르세발(Parseval)의 정리가 보장하는 직교성과 에너지 보존 특성을 활용하여 장거리 의존성을 효율적으로 포착합니다. 학습 가능한 스펙트럼 필터와 modReLU 활성화 함수를 통해 중요한 주파수 성분을 동적으로 강조함으로써 기존의 셀프 어텐션을 대체할 수 있는 엄밀하고 적응적인 방식을 제공합니다. Long Range Arena 및 I..
https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1?utm_source=pytorchkr&ref=pytorchkr The Illustrated DeepSeek-R1A recipe for reasoning LLMsnewsletter.languagemodels.co DeepSeek-R1은 꾸준히 이어지는 AI 발전의 최신 성과 중 하나로, 머신러닝 연구개발(MR R&D) 커뮤니티에 있어 중요한 공개이다. 그 이유는 다음과 같다.오픈 가중치 모델이며, 더 작은 크기의 증류된 버전도 제공된다.OpenAI O1과 같은 추론 모델을 재현할 수 있는 학습 방법을 공유하고 이에 대한 고찰을 제공한다. 복습: LLM은 어떻게 학습되는가 대부분의 기존 대..
대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다. 특히 OpenAI, Anthropic, Google 등의 연구 기관이 개발한 최신 모델들은 언어 이해와 생성뿐만 아니라 수학, 과학, 코딩 등 다양한 논리적 추론 작업에서 탁월한 성능을 보여주고 있습니다. 하지만 기존 연구들은 대부분 사전 학습(pre-training)과 지도학습(supervised fine-tuning)을 기반으로 하고 있으며, 이는 막대한 데이터와 연산 자원이 필요하다는 한계를 가지고 있습니다. 최근 들어 **사후 훈련(post-training)**이 전체 훈련 과정에서 중요한 요소로 떠오르고 있습니다. 이는 추론 작업의..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.