LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들

AI/NLP 2025. 7. 13. 16:10

728x90

LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들

그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ?

학습 서버는 그래도 좋은 GPU를 사용할 수 있지만
AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ...

서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다

지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이
추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고
이 중 Input Length와 관련된 부분은 KV Cache다

KV Cache가 VRAM에서 차지하는 양은 배치 × 시퀀스 × 히든차원 × 레이어 × 2 × 정밀도다.

배치와 시퀀스를 생각해보면
많은 사용자 요청이 있을수록, 또 긴 input을 받을수록
메모리 사용량이 매우 빠르게 증가함을 예상할 수 있다

KV Cache 관련해서는 아래의 글들에서도 이미 정리해두었기에 내 환경(vLLM + A100 40G)에서 할 수 있는 방법을 아래에 정리하고자 한다

1. vLLM Docs에서 최적화 방법 샅샅이 뒤지기

2. LMCache

요 LMCache는

Github Trend 구경하다가 발견한건데 타이밍 좋았다

vLLM과 함께 쓰면 TTFT도 줄어들고, 이미 vLLM에도 docs 잘 정리되어있길래 (https://docs.vllm.ai/en/latest/examples/others/lmcache.html) 바로 적용해볼 수 있을 거 같다

원리는 아래와 같디

기존의 LLM 최적화 도구로는 Hugging Face의 Accelerate, DeepSpeed, vLLM 자체의 텐서 캐싱 구조 등이 있습니다. 그러나 이들은 대부분 같은 인스턴스 내에서만 캐시를 유지하거나, 접두사 캐싱에만 초점이 맞춰져 있어 재사용 가능한 비접두사 문맥을 공유하지 못하는 한계가 있습니다.

LMCache는 비접두사 캐시까지도 다른 인스턴스와 공유 가능하도록 설계되어, 분산 환경에서의 캐시 활용을 극대화합니다. 이는 CPU나 디스크에 저장된 캐시까지도 다시 불러올 수 있기 때문에 기존 방법들보다 훨씬 범용적이고 확장성이 뛰어납니다.

Reference.

https://arxiv.org/abs/2412.19442

A Survey on Large Language Model Acceleration based on KV Cache Management

Large Language Models (LLMs) have revolutionized a wide range of domains such as natural language processing, computer vision, and multi-modal tasks due to their ability to comprehend context and perform logical reasoning. However, the computational and me

arxiv.org

https://discuss.pytorch.kr/t/lmcache-llm/7179

LMCache: LLM 서빙 효율성을 높여주는 캐시 시스템

LMCache 소개 LLM(대규모 언어 모델)을 실제 환경에서 활용하려면 추론 속도와 리소스 효율성이 매우 중요합니다. 특히 RAG나 멀티턴 QA 같은 응답 지연이 치명적인 응용에서는 더욱 그렇습니다. 이

discuss.pytorch.kr

https://github.com/LMCache/LMCache

GitHub - LMCache/LMCache: Supercharge Your LLM with the Fastest KV Cache Layer

Supercharge Your LLM with the Fastest KV Cache Layer - LMCache/LMCache

github.com

728x90

'AI > NLP' 카테고리의 다른 글

DAPO: An Open-Source LLM Reinforcement Learning System at Scale (25.03) 논문 리뷰 (0)	2025.07.19
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models (25.07) 논문 리뷰 (0)	2025.07.18
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN (0)	2025.07.13
[GPU/메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드) (0)	2025.07.06
[unsloth] LoRA Hyperparameters Guide 번역 (1)	2025.07.06

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로

'AI > NLP' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'AI > NLP' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바