홈
태그
방명록

분류 전체보기 (218)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

inference

LLM 빠르게 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant)
AI/NLP 2025. 3. 23. 19:23

LLM 빠르게 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant) 이전 포스트까지는 모델을 학습할 때 있어서의 효율을 확보하고자 하는 방법들이라면, 이번 포스트부터는 이렇게 학습한 모델들을 가지고 어떻게 하면 좀 더 빠르게 추론하고 서빙할 수 있을지에 대한 방법론들을 알아본다 오늘 살펴볼 양자화는 추론 효율은 극대화하나 성능이 저하된다는 본질적인 한계를 가지고 있다. 양자화란? 양자화란 부동소수점 데이터를 더 적은 메모리를 사용하는 정수 형식으로 변환해 GPU를 효율적으로 사용하는 방법을 말함기본적으로 FP32 형식으로 모델 파라미터를 저장했다면, 최근엔 모델이 점점 커지면서 FP16를 사..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바