'경량화' 태그의 글 목록

AI 경량화 - 더 빠르고 저렴한 AI 서비스를 위해(NAVER 강의)

1. 서론 AI 경량화는 사실 세간의 인식에 비해 쉽다 기저에 깔려있는 이론은 어렵지만 적용하기에는 매우 쉽다 현재 AI모델은 더 큰 모델, 더 큰 파라미터로 더 좋은 성능을 내는 것이 트렌드 NLP 뿐만이 아니라 CV도 마찬가지 하지만 문제는 서비스 응답 목표치에 비해 AI모델의 추론 속도가 매우 느리다는거 경량화를 통해 AI모델의 아키텍처는 그대로, 정확도 손실은 거의 없게 그런데 추론 속도를 4배 더 빠르게 할수 있다면? Clova의 LaRva 모델은 1배치당 평균 175.87ms인데 경량화를 통해 4배 더 빠른 43.86ms를 달성했다고함 이 정도면 서빙하고도 남는 수준 경량화 기법의 계통 pruning과 low rank 기법이 주로 연구되고 있고(2023.10 기준) know..

format_list_bulleted AI trend research
· 2025. 1. 6.
textsms

quantization의 종류들 구체적으로 살펴보기(quantization aware, post training ... )

1. how much quantization을 얼마나 했느냐에 따라 32bit가 full precision이라면 절반씩 줄여나가는 16bit quantization, 8bit, 4bit, 2bit, 1bit quantization mixed precision으로 quantization하는 기법은 hardware-oriented compression(혹은 hardware-aware compression)에 사용된다고 함 무슨 말이냐면 hardware 친화적인 compression, 사용하는 hardware에 맞춘 compression 구체적으로 아주 미세한 layer 단위에서 어떤 layer는 3bit, 어떤 layer는 5bit quantization을 하는 등 layer 단위로 섞어서 다른 quan..

format_list_bulleted light weight modeling
· 2024. 11. 27.
textsms

hardware optimization이 일어나는 원리 locality of reference

1. hardware specific optimization deep learning model의 compile과정에서 backend단에서 target hardware에 맞춰가는 optimization을 위해 여러가지 방법들이 사용 hardware intrinsic mapping, memory allocation & fetching, loop oriented optimization techniques, parallelization 등등 loop oriented optimization technique는 직관적으로 이해하기 쉬운데 loop fusion은 겹치는 loop를 하나로 합치는 것일테고 reordering은 loop 순서를 바꾸는 것일테고 unrolling은 loop를 풀어서 하나하나 실행되게 ..

format_list_bulleted light weight modeling
· 2024. 11. 26.
textsms

lottery ticket을 찾는 방법들로 제안된 방법들 살펴보기

1. iterative magnitude pruning 최초 논문에서 제안한 lottery ticket를 찾는 방법 초기 W0로 parameter initialization을 수행하고 T번 training을 수행 이 때 magnitude pruning을 수행하여 mask m1을 찾는 것임 magnitude는 weight의 크기를 기준으로 적은 크기를 가지는 weight를 제거함 그러면 이제 이게 lottery ticket인지 확인하기 위해 초기 W0에 mask m1을 씌운 뒤 T번 training을 시켜 검증을 하는거지 아니라면 다른 pruning을 수행하여 mask m2를 얻고 위 과정을 계속 반복해서 lottery ticket를 찾겠다 이거임 2. iterative magnitude prunin..

format_list_bulleted light weight modeling
· 2024. 11. 25.
textsms

neural network에서의 low rank approximation은 무엇이 있는가

1. filter decomposition network의 filter를 decomposition하여 계산량을 줄이면서 decomposition하기 전의 결과에 approximation시키는 방법 depthwise separable convolution은 depthwise convolution을 수행하고 pointwise convolution을 수행하여 일반적인 convolution보다 계산량을 줄이고 원래 일반적인 convolution의 결과에 거의 approximation할 수 있다.. (같지 않나 아닌감) 2. low rank tensor approximation 이미 학습된 network의 filter가 차원이 너무 높아 계산비용이 너무 많이 드는 경우 하지만 input을 받아 output을 ..

format_list_bulleted light weight modeling
· 2024. 11. 20.
textsms

가장 좋은 augmentation을 찾기 위한 시도들 - AutoML, Rand augmentation

1. issue task나 dataset 종류에 따라서 잘 되는 augmentation이 다르고 적용해야하는 강도나 크기도 달라 숫자를 인식해야하는 MNIST 데이터셋의 경우 9라는 이미지를 180도 회전한 이미지로 바꾸면 6으로 인식되는데 label은 여전히 9라고 하는데 누가봐도 6으로 보이니 성능이 저하될 수 있음 capacity가 작은 모델에 학습이 어려운 augmentation을 적용하면 오히려 부담을 느껴 성능이 저하됨 2. AutoAugment 그렇다면 컴퓨터의 힘을 빌려 AutoML을 통해 task와 데이터에 최적화된 augmentation을 찾아보자 데이터로부터 data augmentation의 policy를 학습하는 모델을 만드는것 모델로부터 데이터의 특징을 잘 살려주는 au..

format_list_bulleted light weight modeling
· 2024. 10. 1.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

AI 경량화 - 더 빠르고 저렴한 AI 서비스를 위해(NAVER 강의)

quantization의 종류들 구체적으로 살펴보기(quantization aware, post training ... )

hardware optimization이 일어나는 원리 locality of reference

lottery ticket을 찾는 방법들로 제안된 방법들 살펴보기

neural network에서의 low rank approximation은 무엇이 있는가

가장 좋은 augmentation을 찾기 위한 시도들 - AutoML, Rand augmentation

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역