kv cache
-
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들AI/NLP 2025. 7. 13. 16:10
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..
-
[GPU/메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드)AI/NLP 2025. 7. 6. 15:51
[메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드) 들어가기 전 간단한 계산 정도는 아래 포스트에서 대충 적어놨었다 (https://asidefine.tistory.com/317)하지만 어렴풋한 감으로 하는 것보다 원리부터 다시 ! 1. 핵심 개념 정리1.1 메모리 구성 요소공통 요소:- 모델 파라미터: 실제 가중치- 입력 데이터: 배치 처리용 토큰들- 시스템 오버헤드: 프레임워크 메모리추론 전용:- KV 캐시: 생성 속도 향상용 캐시학습 전용:- 그래디언트: 역전파용 기울기- 옵티마이저 상태: Adam/SGD 내부 상태- 중간 활성화: 역전파용 순전파 결과1.2 데이터 정밀도정밀도 바이트 메모리 비율 성능 영향FP324100%기준FP16250%거의 ..