'llm' 태그의 글 목록

LLM 기본4 - transformer + 텍스트 데이터의 토큰화

1. transformer 아키텍처 2017년 구글에서 발표한 Attention is All you need 논문에서 처음 등장 머신러닝을 통해 언어를 번역하는 기계 번역 성능을 높이기 위한 방법을 연구하였는데, 당시 널리 사용된 RNN에 비해 성능 면에서 큰 폭으로 앞섰다. 또한 RNN에 비해 모델 학습 속도도 빨랐다. 이렇게 완전히 새로운 형태의 모델이 성능과 속도 면에서 뛰어난 모습을 보여 많은 인공지능 연구자들이 각자 연구에 transformer를 적용하기 시작 현재 transformer은 자연어 처리는 물론 컴퓨터 비전, 추천 시스템 등 모든 AI 분야에서 핵심 아키텍처가 되었다. 기존에 자연어 처리 문제에서 사용하던 RNN은 다음과 같이 텍스트를 순차적으로 하나씩 입력하는 형태다 사람이..

format_list_bulleted LLM
· 2025. 4. 6.
textsms

MCP 배운 기념 간단하게 사용해보기1

먼저 claude desktop 설치 https://claude.ai/download 이렇게 코드 작성하고 server.py로 저장 # server.pyfrom mcp.server.fastmcp import FastMCP# Create an MCP servermcp = FastMCP("Demo")# Add an addition tool@mcp.tool()def add(a: int, b: int) -> int: """Add two numbers""" return a + b@mcp.tool()def gcd(a,b): """find gcd two number""" while b != 0: a,b = b,a%b return a# Add a dynamic g..

format_list_bulleted Python
· 2025. 4. 2.
textsms

LLM 기본3 - LLM 애플리케이션을 개발하기 위해 필요한 핵심 개념

1. 지식 사용법을 바꾼 LLM LLM이 사회에 큰 영향을 미치고 있는 이유는 하나의 언어 모델이 다양한 작업에서 뛰어난 능력을 보이기 때문 기존에는 언어에 대해 다루는 AI 분야인 자연어 처리 분야를 크게 언어를 이해하는 자연어 이해, 언어를 생성하는 자연어 생성의 두 분야로 접근했다. 또 각각의 영역에서 일부 좁은 영역의 작업을 해결하기 위해 별도의 모델을 개발하는 방식으로 문제에 접근했다. 하지만 LLM의 경우 언어 이해와 생성 능력이 모두 뛰어나다. 처음부터 자연어 생성을 위한 모델이므로 언어 생성 능력이 뛰어나고 모델의 크기가 커지면서 언어 추론 능력을 포함한 언어 이해 능력마저 크게 높아졌다. 지시 데이터셋으로 사용자의 요청에 응답하는 방식을 학습하면서 다양한 작업에 적절히 응답하는 능..

format_list_bulleted LLM
· 2025. 3. 31.
textsms

LLM 기본2 - ChatGPT가 나오기까지

1. RNN 딥러닝이나 머신러닝 분야에서 텍스트는 단어가 연결된 문장 형태의 데이터를 일컫는다. 이처럼 작은 단위의 데이터가 연결되고 그 길이가 다양한 데이터의 형태를 시퀀스(sequence)라고 한다. 텍스트, 오디오, 시계열같은 데이터는 sequence이다. 역사적으로 이러한 시퀀스 데이터를 처리하기 위해 RNN이나 transformer의 2가지 아키텍처로 대표되는 다양한 모델을 사용했다. transformer가 개발되기 전에는 RNN을 활용해 텍스트를 생성했다. RNN은 위 그림같이 입력하는 텍스트를 순차적으로 처리해서 다음 단어를 예측한다. 특징으로는 모델이 하나의 잠재 상태 hidden state에 지금까지 입력 텍스트의 맥락을 압축한다는 점이다. 첫번째 입력인 '검은'이 모델을 통과하면 h..

format_list_bulleted LLM
· 2025. 3. 27.
textsms

Transformers without Normalization

개요현대 신경망에서 정규화(Normalization) 계층은 필수적인 요소로 여겨짐.본 연구에서는 정규화 없이도 동일하거나 더 나은 성능을 내는 방법을 제시.Dynamic Tanh (DyT)라는 간단한 연산을 도입하여 정규화 계층을 대체함.DyT는 DyT(x) = tanh(αx)의 형태를 가지며, 입력값을 조정하고 극단값을 억제하는 역할 수행. 주요 기여정규화 계층이 없어도 학습 가능Layer Normalization (LN) 없이도 Transformer 모델이 안정적으로 학습됨을 실험적으로 입증.DyT는 tanh 형태의 S-커브를 활용하여 정규화 계층의 효과를 모방.다양한 영역에서 검증시각 인식, 언어 모델링, 음성 인식 등 다양한 태스크에서 DyT 적용.ViT, ConvNeXt, LLaMA 등의 최신..

format_list_bulleted AI trend research
· 2025. 3. 25.
textsms

Introducing Instella: New State-of-the-art Fully Open 3B Language Models

https://rocm.blogs.amd.com/artificial-intelligence/introducing-instella-3B/README.html?utm_source=pytorchkr&ref=pytorchkr Introducing Instella: New State-of-the-art Fully Open 3B Language Models — ROCm BlogsAlignment to human preferences and strengthen chat capabilities with direct preference optimization (DPO).rocm.blogs.amd.com https://discuss.pytorch.kr/t/amd-mi300x-gpu-instella-3b/6297 AMD, ..

format_list_bulleted AI trend research
· 2025. 3. 8.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

LLM 기본4 - transformer + 텍스트 데이터의 토큰화

MCP 배운 기념 간단하게 사용해보기1

LLM 기본3 - LLM 애플리케이션을 개발하기 위해 필요한 핵심 개념

LLM 기본2 - ChatGPT가 나오기까지

Transformers without Normalization

Introducing Instella: New State-of-the-art Fully Open 3B Language Models

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역