https://discuss.pytorch.kr/t/deep-research-model-context-protocol-mcp/6594 [Deep Research] Model Context Protocol(MCP) 개념 및 이해를 위한 학습 자료MCP(Model Context Protocol) 개념 및 이해를 위한 학습 자료 MCP의 기본 개념 및 역할 MCP(Model Context Protocol)는 AI 모델과 외부 데이터 소스 또는 도구를 연결해주는 개방형 표준 프로토콜입니다. 쉽게 말해discuss.pytorch.kr 1. MCP의 기본 개념 및 역할 MCP(Model Context Protocol)는 AI 모델과 외부 데이터 소스 또는 도구를 연결해주는 개방형 표준 프로토콜입니다. 쉽게 말해..
1. 전체 요약 이 논문은 DeepSeek-V3 및 DeepSeek-R1 모델이 기존 대형 언어 모델(LLM)과 비교하여 우수한 성능을 어떻게 달성했는지를 분석합니다. 특히, OpenAI 및 Anthropic과 같은 기업의 폐쇄형 모델과 비교할 때 훨씬 적은 학습 비용으로 유사한 성능을 보이는 것이 특징입니다. 논문에서는 다음과 같은 핵심 기술을 다룹니다.1. DeepSeek 모델의 주요 기술(1) Multi-Head Latent Attention (MLA)기존 Multi-Head Attention (MHA) 구조의 단점을 개선하여 KV 캐시(KV Cache) 메모리 사용량을 줄이면서 성능을 유지하는 방식.저차원 행렬 분해를 활용한 Low-Rank Key-Value Joint Compression 기술 ..
개요현대 신경망에서 정규화(Normalization) 계층은 필수적인 요소로 여겨짐.본 연구에서는 정규화 없이도 동일하거나 더 나은 성능을 내는 방법을 제시.Dynamic Tanh (DyT)라는 간단한 연산을 도입하여 정규화 계층을 대체함.DyT는 DyT(x) = tanh(αx)의 형태를 가지며, 입력값을 조정하고 극단값을 억제하는 역할 수행. 주요 기여정규화 계층이 없어도 학습 가능Layer Normalization (LN) 없이도 Transformer 모델이 안정적으로 학습됨을 실험적으로 입증.DyT는 tanh 형태의 S-커브를 활용하여 정규화 계층의 효과를 모방.다양한 영역에서 검증시각 인식, 언어 모델링, 음성 인식 등 다양한 태스크에서 DyT 적용.ViT, ConvNeXt, LLaMA 등의 최신..
https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html?utm_source=pytorchkr&ref=pytorchkr Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm BlogsAlignment to human preferences and strengthen chat capabilities with direct preference optimization (DPO).rocm.blogs.amd.com https://discuss.pytorch.kr/t/amd-mi300x-gpu-instella-3b/6297 AMD, ..
1. abstract 전통적인 셀프 어텐션 메커니즘은 이차적(𝑂(𝑛²)) 복잡도를 갖기 때문에 긴 시퀀스에서 확장성이 제한됩니다. 우리는 FFTNet을 소개하는데, 이는 빠른 푸리에 변환(FFT)을 활용하여 𝑂(𝑛 log 𝑛) 시간 복잡도로 글로벌 토큰 혼합을 달성하는 적응형 스펙트럼 필터링 프레임워크입니다. FFTNet은 입력을 주파수 도메인으로 변환함으로써, 파르세발(Parseval)의 정리가 보장하는 직교성과 에너지 보존 특성을 활용하여 장거리 의존성을 효율적으로 포착합니다. 학습 가능한 스펙트럼 필터와 modReLU 활성화 함수를 통해 중요한 주파수 성분을 동적으로 강조함으로써 기존의 셀프 어텐션을 대체할 수 있는 엄밀하고 적응적인 방식을 제공합니다. Long Range Arena 및 I..
https://arxiv.org/abs/2501.17161?utm_source=pytorchkr&ref=pytorchkr SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trainingSupervised fine-tuning (SFT) and reinforcement learning (RL) are widely used post-training techniques for foundation models. However, their roles in enhancing model generalization capabilities remain unclear. This paper studies the difference bet..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.