context length
-
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들AI/NLP 2025. 7. 13. 16:10
LLM의 Context Length 늘리기 (2) - KV Cache 최적화 기법들 그래 YaRN으로 모델이 긴 시퀀스 볼 수 있다 치자 ! 근데 메모리 부족한 건 어떻게 해결할 건데 ? 학습 서버는 그래도 좋은 GPU를 사용할 수 있지만 AI 서비스가 나갈 서버의 GPU를 H100로 할 순 없으니 ... 서빙용 GPU (가령 A100 40G)에서 이 작디작은 메모리를 어떻게 아껴가며 쓸지 생각해봐야 하는 부분이다 지난 주 올렸던 글에서 (https://asidefine.tistory.com/341) 봤듯이 추론 시에는 1) 모델, 2) KV Cache가 메모리에서 가장 큰 파이를 차지하게 되고이 중 Input Length와 관련된 부분은 KV Cache다 KV Cache가 VRAM에서 차지하는..
-
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRNAI/NLP 2025. 7. 13. 15:30
LLM의 Context Length 늘리기 (1) - Positional Embedding부터 RoPE, Position Interpolation, NTK, YaRN 최근 업무로 Agent를 하다 보니Tool Description 등으로 인해 Context Length가 불가피하게 길어지더라 32K로 열어두고 사용하고 있었는데 Tool Description만 22K라 Context length 늘리는 방법을 요즘 공부 중이다 크게 1) 모델이 원래 볼 수 있는 최대의 Context Length보다 더 늘릴 수 있는 방안(즉, 모델이 긴 입력을 이해하도록 하는)이 있고,두번째로 2) 긴 Context일 때도 추론이 느려지지 않도록 하는 방안 (긴 시퀀스에서 메모리 문제로 게산이 느려지기에)이 있음위치 임..