홈
태그
방명록

분류 전체보기 (257)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

Quantization

LLM 효율적으로 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant)
AI/NLP 2025. 3. 23. 19:23

LLM 효율적으로 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant) 이전 포스트까지는 모델을 학습할 때 있어서의 효율을 확보하고자 하는 방법들이라면, 이번 포스트부터는 이렇게 학습한 모델들을 가지고 어떻게 하면 좀 더 빠르게 추론하고 서빙할 수 있을지에 대한 방법론들을 알아본다 들어가기 전 ... LLM 추론 시, GPU VRAM에 올라가는 메모리는 크게 4가지로 (https://asidefine.tistory.com/341), 그중 모델과 KV Cache가 차지하는 비중이 가장 높다. 따라서 오늘 살펴볼 양자화는 모델 Weight 자체를 효율화하는 방법으로, 추론 효율은 극대화하나 성..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바