'NLP' 태그의 글 목록 (2 Page)

The FFT Strikes Back: An Efficient Alternative to Self-Attention

1. abstract 전통적인 셀프 어텐션 메커니즘은 이차적(𝑂(𝑛²)) 복잡도를 갖기 때문에 긴 시퀀스에서 확장성이 제한됩니다. 우리는 FFTNet을 소개하는데, 이는 빠른 푸리에 변환(FFT)을 활용하여 𝑂(𝑛 log 𝑛) 시간 복잡도로 글로벌 토큰 혼합을 달성하는 적응형 스펙트럼 필터링 프레임워크입니다. FFTNet은 입력을 주파수 도메인으로 변환함으로써, 파르세발(Parseval)의 정리가 보장하는 직교성과 에너지 보존 특성을 활용하여 장거리 의존성을 효율적으로 포착합니다. 학습 가능한 스펙트럼 필터와 modReLU 활성화 함수를 통해 중요한 주파수 성분을 동적으로 강조함으로써 기존의 셀프 어텐션을 대체할 수 있는 엄밀하고 적응적인 방식을 제공합니다. Long Range Arena 및 I..

format_list_bulleted AI 논문/AI trend research
· 2025. 3. 7.
textsms

The Illustrated DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1?utm_source=pytorchkr&ref=pytorchkr The Illustrated DeepSeek-R1A recipe for reasoning LLMsnewsletter.languagemodels.co DeepSeek-R1은 꾸준히 이어지는 AI 발전의 최신 성과 중 하나로, 머신러닝 연구개발(MR R&D) 커뮤니티에 있어 중요한 공개이다. 그 이유는 다음과 같다.오픈 가중치 모델이며, 더 작은 크기의 증류된 버전도 제공된다.OpenAI O1과 같은 추론 모델을 재현할 수 있는 학습 방법을 공유하고 이에 대한 고찰을 제공한다. 복습: LLM은 어떻게 학습되는가 대부분의 기존 대..

format_list_bulleted AI 논문/AI trend research
· 2025. 2. 1.
textsms

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning

대규모 언어 모델(LLM, Large Language Model)은 최근 몇 년간 비약적으로 발전하며 인공지능(AI) 연구에서 핵심적인 위치를 차지하고 있습니다. 특히 OpenAI, Anthropic, Google 등의 연구 기관이 개발한 최신 모델들은 언어 이해와 생성뿐만 아니라 수학, 과학, 코딩 등 다양한 논리적 추론 작업에서 탁월한 성능을 보여주고 있습니다. 하지만 기존 연구들은 대부분 사전 학습(pre-training)과 지도학습(supervised fine-tuning)을 기반으로 하고 있으며, 이는 막대한 데이터와 연산 자원이 필요하다는 한계를 가지고 있습니다. 최근 들어 **사후 훈련(post-training)**이 전체 훈련 과정에서 중요한 요소로 떠오르고 있습니다. 이는 추론 작업의..

format_list_bulleted AI 논문/AI trend research
· 2025. 1. 31.
textsms

Transformer^2: Self-adaptive LLMs

대규모 언어 모델(Large Language Models, LLMs)은 인공지능(AI) 발전의 핵심이 되었지만, 기존 LLM은 본질적으로 정적인 구조를 가지고 있어 새로운 작업이나 환경에 빠르게 적응하기 어렵습니다. 기존 모델은 정적인 학습 구조를 기반으로 설계되어 한 번 학습된 이후에는 추가적인 작업을 처리하기 위해 전체 모델을 재학습해야 하며, 이는 높은 계산 비용과 자원 소모를 초래합니다. Sakana AI가 제안하는 Transformer²는 이러한 한계를 극복하기 위해 설계된 새로운 프레임워크로, AI 시스템이 환경과 작업에 따라 실시간 적응할 수 있도록 지원합니다. 이 프레임워크는 기존 LLM의 정적 구조를 개선하여 특이값 기반 파인튜닝(Singular Value Fine-tuning, SVF)..

format_list_bulleted AI 논문/AI trend research
· 2025. 1. 22.
textsms

Train 400x faster Static Embedding Models with Sentence Transformers

임베딩이란 무엇인가? 임베딩은 자연어 처리에서 가장 다용도로 사용되는 도구 중 하나로, 다양한 작업을 해결하는 데 유용합니다. 본질적으로 임베딩은 텍스트, 이미지, 오디오 등과 같은 더 복잡한 객체를 수치적으로 표현한 것입니다. 임베딩 모델은 항상 동일한 고정 크기의 임베딩을 생성합니다. 그런 다음 각 임베딩의 유사성을 계산하여 복잡한 객체들의 유사성을 계산할 수 있습니다. 이것은 매우 많은 사용 사례를 가지고 있으며, 추천 시스템, 검색, 이상치 탐지, 원샷 또는 퓨샷 학습, 유사성 검색, 군집화, 패러프레이즈 탐지, 분류 등 많은 분야의 핵심 역할을 합니다. 현대 임베딩오늘날의 많은 임베딩 모델은 몇 가지 변환 단계로 구성됩니다. 이러한 단계를 따르는 것을 "추론"이라고 합니다. 토크..

format_list_bulleted AI 논문/AI trend research
· 2025. 1. 20.
textsms

static embedding과 dynamic embedding

Static Embedding은 자연어 처리(NLP)에서 단어를 고정된 벡터로 표현하는 방식입니다. 단어마다 고유한 벡터를 가지며, 문맥에 따라 변하지 않는다는 특징이 있습니다. 이는 단어의 의미를 수학적으로 나타내기 위해 자주 사용됩니다.주요 특징고정된 벡터같은 단어는 항상 동일한 벡터로 표현됩니다. 예를 들어, "bank"라는 단어는 "강둑"이든 "은행"이든 동일한 벡터로 나타납니다.사전 학습된 임베딩대규모 코퍼스를 학습해 단어 간의 의미적 유사도를 반영한 벡터를 생성합니다. 학습이 끝난 후에는 임베딩이 고정됩니다.문맥 정보 부족단어의 문맥을 고려하지 않으므로 다의어(같은 단어인데 다른 의미)가 정확히 표현되지 않을 수 있습니다.예시 알고리즘 및 모델Word2Vec (Google, 2013)Conti..

format_list_bulleted 딥러닝/NLP
· 2025. 1. 18.
textsms