2024.03 1. 요약 이미지-텍스트 기반 모델(CLIP 등)의 대조적 사전 학습은 다양한 후속 작업에서 뛰어난 제로샷 성능과 향상된 강건성을 입증했습니다. 그러나 이러한 모델은 대규모 트랜스포머 기반 인코더를 사용하며, 이는 메모리와 지연 시간 측면에서 상당한 부담을 주어 모바일 디바이스에서의 배포에 어려움을 초래합니다. 본 연구에서는 MobileCLIP이라는 새로운 효율적인 이미지-텍스트 모델 군과 함께, 멀티모달 강화 학습(multi-modal reinforced training)이라는 새로운 효율적 학습 방법을 제안합니다. 제안된 학습 방법은 이미지 캡셔닝 모델과 강력한 CLIP 인코더 앙상블의 지식 전이를 활용하여 효율적인 모델의 정확성을 향상시킵니다. 우리의 접근 방식은 강화된 데이터셋(r..
2024.05 Apple Machine Learning Research 1. 요약 대규모 언어 모델(LLM)은 일반적으로 고정 길이의 토큰 시퀀스로 구성된 데이터셋을 사용하여 훈련됩니다. 이러한 데이터셋은 다양한 길이의 문서를 무작위로 연결한 후, 정해진 목표 길이의 시퀀스로 분할하여 생성됩니다. 그러나 이러한 연결 방식은 시퀀스 내에서 문서 간 주의(cross-document attention)가 발생하게 하며, 이는 학습 신호로 적합하지 않을 뿐만 아니라 계산 효율성도 떨어뜨립니다. 또한, 긴 시퀀스에 대한 훈련은 주의 계산의 이차적 비용(quadratic cost) 때문에 계산적으로 부담이 큽니다. 이 연구에서는 이러한 문제를 해결하기 위해 데이터셋 분해(dataset decomposition..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.