728x90
onnx
-
LLM 서빙하기 (1) - Triton Inference Server란?AI/NLP 2025. 3. 23. 21:24
LLM 서빙하기 (1) - Triton Inference Server란? 실제 서비스를 만들려면,사용자 요청을 받고모델에 입력을 넣고추론 결과를 받아서 응답해야 함 일반적인 PyTorch 혹은 Transformers 모델 배포 성능을 극대화하기 위해 모델 포맷을 1) ONNX 또는 SavedModel 형태로 저장한 뒤,2) Conversion을 통해 TensorRT/vLLM 등의 Engine로 변환하고3) Triton Inference Server로 배포하는 과정을 거침 Triton Inference Server 란? Triton이란 AI 모델을 여러 환경에서 빠르고 유연하게 서비스할 수 있게 해주는 서버 플랫폼 모델 최적화 이후 “실제 서비스화”를 위한 단계에서 모델을 HTTP..