대규모 언어 모델(Large Language Models, LLMs)은 인공지능(AI) 발전의 핵심이 되었지만, 기존 LLM은 본질적으로 정적인 구조를 가지고 있어 새로운 작업이나 환경에 빠르게 적응하기 어렵습니다. 기존 모델은 정적인 학습 구조를 기반으로 설계되어 한 번 학습된 이후에는 추가적인 작업을 처리하기 위해 전체 모델을 재학습해야 하며, 이는 높은 계산 비용과 자원 소모를 초래합니다. Sakana AI가 제안하는 Transformer²는 이러한 한계를 극복하기 위해 설계된 새로운 프레임워크로, AI 시스템이 환경과 작업에 따라 실시간 적응할 수 있도록 지원합니다. 이 프레임워크는 기존 LLM의 정적 구조를 개선하여 특이값 기반 파인튜닝(Singular Value Fine-tuning, SVF)..
1. filter decomposition network의 filter를 decomposition하여 계산량을 줄이면서 decomposition하기 전의 결과에 approximation시키는 방법 depthwise separable convolution은 depthwise convolution을 수행하고 pointwise convolution을 수행하여 일반적인 convolution보다 계산량을 줄이고 원래 일반적인 convolution의 결과에 거의 approximation할 수 있다.. (같지 않나 아닌감) 2. low rank tensor approximation 이미 학습된 network의 filter가 차원이 너무 높아 계산비용이 너무 많이 드는 경우 하지만 input을 받아 output을 ..
1. matrix factorization 사용자 * 아이템으로 구성된 하나의 행렬을 2개의 행렬로 분해하는 방법 사용자와 아이템이 각각 무엇인지는 모르겠지만 k개의 잠재요인(latent factor)으로 설명할 수 있다고 생각하고, (사용자 * 잠재요인) * (잠재요인 * 아이템)의 두 행렬의 곱으로 나타낼 수 있다는 것이다. 행렬 R은 M명의 사용자가 N개의 아이템에 대해 평가한 점수가 있는 행렬 M명의 사용자는 모든 아이템에 대해 평가하지는 않는다. 내가 소유한 아이템, 경험해본 아이템에 대해서는 평가할 수 있어도(혹은 평가하지 않고) 경험해보지 않은 아이템에 평가하지는 않는다(거짓으로 할수도 있겠지만..) 그래서 R은 대부분의 아이템이 NULL인 sparse matrix이다. 이러한 행렬 ..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.