AI 경량화 - 더 빠르고 저렴한 AI 서비스를 위해(NAVER 강의)
1. 서론 AI 경량화는 사실 세간의 인식에 비해 쉽다 기저에 깔려있는 이론은 어렵지만 적용하기에는 매우 쉽다 현재 AI모델은 더 큰 모델, 더 큰 파라미터로 더 좋은 성능을 내는 것이 트렌드 NLP 뿐만이 아니라 CV도 마찬가지 하지만 문제는 서비스 응답 목표치에 비해 AI모델의 추론 속도가 매우 느리다는거 경량화를 통해 AI모델의 아키텍처는 그대로, 정확도 손실은 거의 없게 그런데 추론 속도를 4배 더 빠르게 할수 있다면? Clova의 LaRva 모델은 1배치당 평균 175.87ms인데 경량화를 통해 4배 더 빠른 43.86ms를 달성했다고함 이 정도면 서빙하고도 남는 수준 경량화 기법의 계통 pruning과 low rank 기법이 주로 연구되고 있고(2023.10 기준) know..