통계학 세상

LLM 기본2 - ChatGPT가 나오기까지

1. RNN 딥러닝이나 머신러닝 분야에서 텍스트는 단어가 연결된 문장 형태의 데이터를 일컫는다. 이처럼 작은 단위의 데이터가 연결되고 그 길이가 다양한 데이터의 형태를 시퀀스(sequence)라고 한다. 텍스트, 오디오, 시계열같은 데이터는 sequence이다. 역사적으로 이러한 시퀀스 데이터를 처리하기 위해 RNN이나 transformer의 2가지 아키텍처로 대표되는 다양한 모델을 사용했다. transformer가 개발되기 전에는 RNN을 활용해 텍스트를 생성했다. RNN은 위 그림같이 입력하는 텍스트를 순차적으로 처리해서 다음 단어를 예측한다. 특징으로는 모델이 하나의 잠재 상태 hidden state에 지금까지 입력 텍스트의 맥락을 압축한다는 점이다. 첫번째 입력인 '검은'이 모델을 통과하면 h..

format_list_bulleted LLM
· 2025. 3. 27.
textsms

야바위에서 바로 왼쪽이나 오른쪽으로 한번만 이동시킬 수 있을때 가능한 위치 구하기

https://swexpertacademy.com/main/code/problem/problemDetail.do?contestProbId=AXTC3GH6D-EDFASe SW Expert AcademySW 프로그래밍 역량 강화에 도움이 되는 다양한 학습 컨텐츠를 확인하세요!swexpertacademy.com n개의 컵이 일렬로 늘어서있는데, 처음에 1번 컵에 공이 들어있다. 이 때 i번째 시행에서 ai번 컵과 bi번 컵을 서로 바꾼다. 임의의 시점에 정확히 한번, i번에 있는 공을 i-1번 컵이나 i+1번 컵으로 옮긴다. 전부 섞고 나서, 공이 있을 수 있는 모든 위치의 개수는? ----------------------------------------------------------------------..

format_list_bulleted 애드 혹 알고리즘
· 2025. 3. 26.
textsms

Transformers without Normalization

개요현대 신경망에서 정규화(Normalization) 계층은 필수적인 요소로 여겨짐.본 연구에서는 정규화 없이도 동일하거나 더 나은 성능을 내는 방법을 제시.Dynamic Tanh (DyT)라는 간단한 연산을 도입하여 정규화 계층을 대체함.DyT는 DyT(x) = tanh(αx)의 형태를 가지며, 입력값을 조정하고 극단값을 억제하는 역할 수행. 주요 기여정규화 계층이 없어도 학습 가능Layer Normalization (LN) 없이도 Transformer 모델이 안정적으로 학습됨을 실험적으로 입증.DyT는 tanh 형태의 S-커브를 활용하여 정규화 계층의 효과를 모방.다양한 영역에서 검증시각 인식, 언어 모델링, 음성 인식 등 다양한 태스크에서 DyT 적용.ViT, ConvNeXt, LLaMA 등의 최신..

format_list_bulleted AI trend research
· 2025. 3. 25.
textsms

연속하는 구간을 한번 뒤집어야할때 켜져있는 원소들의 합의 최댓값을 구하는 놀라운 방법

25634번: 전구 상태 뒤집기 전구의 밝기들이 배열로 주어지고, 초기에 켜져있는지, 꺼져있는지가 주어진다. 연속하는 구간내의 모든 전구들의 상태를 뒤집으면 켜진 전구는 꺼지고, 꺼진 전구는 켜진다. 이 연산을 정확히 1번 해야할때, 전구 밝기들의 합의 최댓값을 구한다. ---------------------------------------------------------------------------------------------------------------------------------------------------- n이 최대 20만인데, 연속하는 구간의 상태를 뒤집어야한다? 구간 dp로 하자니 O(N^2)일텐데 그리고 연산을 무조건 1번은 해야한다는거까지 굉장히 어렵다 처음 상태에서..

format_list_bulleted 다이나믹 프로그래밍
· 2025. 3. 24.
textsms

호요랩 자동 출석 체크 프로그램 만들기 프로젝트3(로딩 지연 문제 + 백그라운드에서 실행)

1. 로딩 지연 문제 프로그램은 한줄 실행이 성공하면 바로 다음줄로 넘어가는데, 웹드라이버의 로딩이 안되어있다보니, 프로그램이 해당 요소를 찾지 못해 에러나는 경우가 있다 로딩 속도가 프로그램 속도를 따라오지 못해 에러가 나는 경우가 있다는 것 import time time.sleep()으로 지연시간을 두는 방법이 있는데, 이래도 안되는 경우가 종종 있다 이때 요소가 로딩이 될때까지 기다리고, 로딩이 되면 실행을 하는 방법이 있다는데 WebDriverWait와 EC.presence_of_element_located를 이용하면 된다 from selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import ex..

format_list_bulleted Python
· 2025. 3. 21.
textsms

한번 쉬면 끝까지 쉬어야할 때 최대한 멀리 달리는 다이나믹 프로그래밍

1757번: 달려달려 n분 동안 달리는데 1분 달리면 지침 지수가 1 올라간다 1분 쉬면 지침 지수가 1 내려간다 지침 지수가 m보다 커지면 달릴 수 없다 한번 쉬면 지침 지수가 0이 될 때까지 쉬어야한다 또한 달리기가 끝난 n분에 지침지수가 0이 되어야한다 i분에 달릴 수 있는 거리가 주어진다. D = [5,3,4,2,10]이면 1분에 달리면 5만큼 뛰고 2분에 달리면 3만큼 뛴다는 소리 이때 가장 멀리 달릴 수 있는 거리는? ------------------------------------------------------------------------------------------------------------------------------------------------- i번째 시간에 지침..

format_list_bulleted 다이나믹 프로그래밍
· 2025. 3. 19.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

LLM 기본2 - ChatGPT가 나오기까지

야바위에서 바로 왼쪽이나 오른쪽으로 한번만 이동시킬 수 있을때 가능한 위치 구하기

Transformers without Normalization

연속하는 구간을 한번 뒤집어야할때 켜져있는 원소들의 합의 최댓값을 구하는 놀라운 방법

호요랩 자동 출석 체크 프로그램 만들기 프로젝트3(로딩 지연 문제 + 백그라운드에서 실행)

한번 쉬면 끝까지 쉬어야할 때 최대한 멀리 달리는 다이나믹 프로그래밍

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역