'deepseek' 태그의 글 목록

A Review of DeepSeek Models' Key Innovative Techniques

1. 전체 요약 이 논문은 DeepSeek-V3 및 DeepSeek-R1 모델이 기존 대형 언어 모델(LLM)과 비교하여 우수한 성능을 어떻게 달성했는지를 분석합니다. 특히, OpenAI 및 Anthropic과 같은 기업의 폐쇄형 모델과 비교할 때 훨씬 적은 학습 비용으로 유사한 성능을 보이는 것이 특징입니다. 논문에서는 다음과 같은 핵심 기술을 다룹니다.1. DeepSeek 모델의 주요 기술(1) Multi-Head Latent Attention (MLA)기존 Multi-Head Attention (MHA) 구조의 단점을 개선하여 KV 캐시(KV Cache) 메모리 사용량을 줄이면서 성능을 유지하는 방식.저차원 행렬 분해를 활용한 Low-Rank Key-Value Joint Compression 기술 ..

format_list_bulleted AI trend research
· 2025. 3. 28.
textsms

The Illustrated DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1?utm_source=pytorchkr&ref=pytorchkr The Illustrated DeepSeek-R1A recipe for reasoning LLMsnewsletter.languagemodels.co DeepSeek-R1은 꾸준히 이어지는 AI 발전의 최신 성과 중 하나로, 머신러닝 연구개발(MR R&D) 커뮤니티에 있어 중요한 공개이다. 그 이유는 다음과 같다.오픈 가중치 모델이며, 더 작은 크기의 증류된 버전도 제공된다.OpenAI O1과 같은 추론 모델을 재현할 수 있는 학습 방법을 공유하고 이에 대한 고찰을 제공한다. 복습: LLM은 어떻게 학습되는가 대부분의 기존 대..

format_list_bulleted AI trend research
· 2025. 2. 1.
textsms

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다. 특히 OpenAI, Anthropic, Google 등의 연구 기관이 개발한 최신 모델들은 언어 이해와 생성뿐만 아니라 수학, 과학, 코딩 등 다양한 논리적 추론 작업에서 탁월한 성능을 보여주고 있습니다. 하지만 기존 연구들은 대부분 사전 학습(pre-training)과 지도학습(supervised fine-tuning)을 기반으로 하고 있으며, 이는 막대한 데이터와 연산 자원이 필요하다는 한계를 가지고 있습니다. 최근 들어 **사후 훈련(post-training)**이 전체 훈련 과정에서 중요한 요소로 떠오르고 있습니다. 이는 추론 작업의..

format_list_bulleted AI trend research
· 2025. 1. 31.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

A Review of DeepSeek Models' Key Innovative Techniques

The Illustrated DeepSeek-R1

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역