Loading...
2025. 1. 20. 21:14

Train 400x faster Static Embedding Models with Sentence Transformers

임베딩이란 무엇인가? 임베딩은 자연어 처리에서 가장 다용도로 사용되는 도구 중 하나로, 다양한 작업을 해결하는 데 유용합니다. 본질적으로 임베딩은 텍스트, 이미지, 오디오 등과 같은 더 복잡한 객체를 수치적으로 표현한 것입니다.    임베딩 모델은 항상 동일한 고정 크기의 임베딩을 생성합니다. 그런 다음 각 임베딩의 유사성을 계산하여 복잡한 객체들의 유사성을 계산할 수 있습니다.    이것은 매우 많은 사용 사례를 가지고 있으며, 추천 시스템, 검색, 이상치 탐지, 원샷 또는 퓨샷 학습, 유사성 검색, 군집화, 패러프레이즈 탐지, 분류 등 많은 분야의 핵심 역할을 합니다.  현대 임베딩오늘날의 많은 임베딩 모델은 몇 가지 변환 단계로 구성됩니다. 이러한 단계를 따르는 것을 "추론"이라고 합니다.   토크..

2025. 1. 14. 22:43

Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks

대규모 언어 모델(Large Language Model, LLM)의 발전은 자연어 처리(NLP) 작업에서 혁신적인 성과를 가져왔습니다. 특히, 검색-보강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식 기반을 활용하여 모델의 문맥 이해력을 크게 향상시키는 방법으로 주목받아 왔습니다.  RAG는 특정 작업에서 외부 데이터 소스를 동적으로 검색하고 이를 기반으로 문맥에 적합한 응답을 생성하는 시스템입니다. 이는 개방형 질문 응답(Open-Domain Question Answering)과 같은 지식 집약적 작업에서 탁월한 성능을 발휘해 왔습니다. 하지만 RAG에는 다음과 같은 한계가 있습니다:실시간 검색은 시스템의 지연(latency)을 초래하여 사용자 경험을 저하시킬 수 ..

2025. 1. 6. 21:53

AI 경량화 - 더 빠르고 저렴한 AI 서비스를 위해(NAVER 강의)

1. 서론 AI 경량화는 사실 세간의 인식에 비해 쉽다 기저에 깔려있는 이론은 어렵지만 적용하기에는 매우 쉽다 현재 AI모델은 더 큰 모델, 더 큰 파라미터로 더 좋은 성능을 내는 것이 트렌드 NLP 뿐만이 아니라 CV도 마찬가지      하지만 문제는 서비스 응답 목표치에 비해 AI모델의 추론 속도가 매우 느리다는거 경량화를 통해 AI모델의 아키텍처는 그대로, 정확도 손실은 거의 없게 그런데 추론 속도를 4배 더 빠르게 할수 있다면?    Clova의 LaRva 모델은 1배치당 평균 175.87ms인데 경량화를 통해 4배 더 빠른 43.86ms를 달성했다고함 이 정도면 서빙하고도 남는 수준    경량화 기법의 계통 pruning과 low rank 기법이 주로 연구되고 있고(2023.10 기준) know..

2025. 1. 3. 21:44

네이버 검색에서 LLM의 활용(LLM으로 학습 데이터를 만드는 사례)

1. 검색 검색은 탐색형과 정보성으로 나뉜다. "캠핑"과 같은 검색은 구체적인 정보 취득보다는 탐색을 목적으로 검색하고, 발생 빈도가 높다 이런 검색은 개인화를 고려해서 캠핑 장비 등 검색 의도 단위로 문서 reranking이 이루어진다 반면, "19개월 잠만자요"같은 검색은 영유아가 잠만 자는 문제에 대한 구체적인 정보를 원하는 질문으로  다양하고 발생 빈도가 낮아 롱테일 질의라고 부른다. 이런 질의는 인기글이나 지식인 등 출처를 기준으로 나뉜 컬렉션 단위 랭킹이 이루어진다. 네이버 검색에는  "19개월 잠만자요" "신차구매시 기존 자동차보험 어떻게 해야하나요" "세입자가 안들어왔다고 돈을 안주는" "80대 요관암 말기 암 항암치료" 의도가 아주 세밀하나, 사용자들이 자주 검색하지는 않는 다양한 롱테일..

2025. 1. 2. 21:07

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

2024.03 1. 요약 이미지-텍스트 기반 모델(CLIP 등)의 대조적 사전 학습은 다양한 후속 작업에서 뛰어난 제로샷 성능과 향상된 강건성을 입증했습니다. 그러나 이러한 모델은 대규모 트랜스포머 기반 인코더를 사용하며, 이는 메모리와 지연 시간 측면에서 상당한 부담을 주어 모바일 디바이스에서의 배포에 어려움을 초래합니다.  본 연구에서는 MobileCLIP이라는 새로운 효율적인 이미지-텍스트 모델 군과 함께, 멀티모달 강화 학습(multi-modal reinforced training)이라는 새로운 효율적 학습 방법을 제안합니다. 제안된 학습 방법은 이미지 캡셔닝 모델과 강력한 CLIP 인코더 앙상블의 지식 전이를 활용하여 효율적인 모델의 정확성을 향상시킵니다. 우리의 접근 방식은 강화된 데이터셋(r..

2024. 12. 31. 21:32

Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

2024.05 Apple Machine Learning Research 1. 요약 대규모 언어 모델(LLM)은 일반적으로 고정 길이의 토큰 시퀀스로 구성된 데이터셋을 사용하여 훈련됩니다.  이러한 데이터셋은 다양한 길이의 문서를 무작위로 연결한 후, 정해진 목표 길이의 시퀀스로 분할하여 생성됩니다.  그러나 이러한 연결 방식은 시퀀스 내에서 문서 간 주의(cross-document attention)가 발생하게 하며, 이는 학습 신호로 적합하지 않을 뿐만 아니라 계산 효율성도 떨어뜨립니다.  또한, 긴 시퀀스에 대한 훈련은 주의 계산의 이차적 비용(quadratic cost) 때문에 계산적으로 부담이 큽니다. 이 연구에서는 이러한 문제를 해결하기 위해 데이터셋 분해(dataset decomposition..