홈
태그
방명록

분류 전체보기 (257)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

acceleration

LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들
AI/NLP 2025. 7. 13. 16:10

LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바