728x90
Quantization
-
LLM 효율적으로 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant)AI/NLP 2025. 3. 23. 19:23
LLM 효율적으로 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant) 이전 포스트까지는 모델을 학습할 때 있어서의 효율을 확보하고자 하는 방법들이라면, 이번 포스트부터는 이렇게 학습한 모델들을 가지고 어떻게 하면 좀 더 빠르게 추론하고 서빙할 수 있을지에 대한 방법론들을 알아본다 들어가기 전 ... LLM 추론 시, GPU VRAM에 올라가는 메모리는 크게 4가지로 (https://asidefine.tistory.com/341), 그중 모델과 KV Cache가 차지하는 비중이 가장 높다. 따라서 오늘 살펴볼 양자화는 모델 Weight 자체를 효율화하는 방법으로, 추론 효율은 극대화하나 성..