728x90
acceleration
-
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들AI/NLP 2025. 7. 13. 16:10
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..