1. 딥러닝 기반의 언어 모델 LLM은 기술적으로 딥러닝에 기반을 둔다. 딥러닝은 인간의 두뇌에 영감을 받아 만들어진 신경망으로서, 데이터의 패턴을 학습하는 머신러닝의 한 분야이다. 딥러닝은 표 형태의 정형 데이터뿐만 아니라 텍스트와 이미지 같은 비정형 데이터에서도 뛰어난 패턴 인식 성능을 보여 2010년대 중반 이후 AI 분야의 주류 모델로 자리 잡았다. LLM은 사람의 언어를 컴퓨터가 이해하고 생성할 수 있도록 연구하는 자연어 처리(Natural language processing)에 속한다. 특히 그중에서도 사람과 비슷하게 텍스트를 생성하는 방법을 연구하는 자연어 생성(natural language generation)에 속한다. LLM은 다음에 올 단어가 무엇일지 예측하면서 문장을 하나씩 만들어..
1. Word2Vec, 언어를 숫자로 바꾸다 2013년 구글은 단어의 의미를 벡터로 표현하는 매우 획기적인 방법을 발표합니다. 그 방법의 이름은 Word2Vec으로, 단어를 벡터로 바꾼다는 매우 직관적인 이름입니다. 무엇보다 놀랍도록 정교하게 단어의 의미를 표현해내 많은 이가 깜짝 놀랐습니다. 이처럼 단어를 벡터라는 숫자로 표현하는 것은 단어 각각의 특징을 추출해 수치화하는 것과 비슷합니다. 예를 들어 '단맛', '크기', '둥근 정도'라는 3가지 특징으로 단어 '캐러멜', '호박', '태양'을 표현해보죠. 관련이 전혀 없다면 0.01, 관련이 매우 높다면 0.99까지 가중치를 준다고 해봅시다. 단어 단맛 크기 둥근 정도 캐러멜 0.92 0.06 0.02 호박 0.23 0.29 0.62 태양 0.01 0..
1. introduction 범주형 변수는 일종의 category를 가진다. 식물의 종이나 자동차 종류나 연속형보다 주의해서 다뤄야 할 수도 있음 보통 문자열로 나타나는데 머신러닝에 입력하기 어려워서 수치형으로 변환해줘야 한다. 2. one hot encoding 해당 변수의 값이 어떤 category에 속하면 1, 아니면 0으로 두는 방법 '그냥 0 아니면 1' 이런게 아니라.. '해당 변수의 VALUE가 어떤 category에 속한다면 1, 그렇지 않으면 0' 위의 그림에서 id 1은 개에 속하므로 개에 1을 주고 고양이에 0을 주어 (1,0)으로 encoding하고 id 2는 고양이에 속하므로 개에 0을 주고 고양이에 1을 주어 (0,1)로 encoding한다 특히 개와 고양이 모두에 속하는 id ..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.