Triton
-
LLM 서빙하기 (2) - Triton Inference Server로 LLM 서빙하기 (HuggingFace 모델을 Triton으로 배포하는 방법)AI/NLP 2025. 4. 5. 20:03
LLM 서빙하기 (2) - Triton Inference Server로 LLM 서빙하기 (HuggingFace 모델을 Triton으로 배포하는 방법) 아래에선 HuggingFace 모델을 Triton으로 배포하는 방법을 배워보자 https://github.com/triton-inference-server/tutorials/tree/main/HuggingFace Triton에 HuggingFace 모델 배포하는 2가지 방법:✅ 방법 1: Python Backend 사용 (전체 파이프라인 통째로 배포)빠르고 간단하게 배포하고 싶을 때 사용Python 코드 안에 전처리 → 모델 추론 → 후처리 모두 포함model.py에서 TritonPythonModel 클래스를 만들고,initialize(..
-
LLM 서빙하기 (1) - Triton Inference Server란?AI/NLP 2025. 3. 23. 21:24
LLM 서빙하기 (1) - Triton Inference Server란? 실제 서비스를 만들려면,사용자 요청을 받고모델에 입력을 넣고추론 결과를 받아서 응답해야 함 일반적인 PyTorch 혹은 Transformers 모델 배포 성능을 극대화하기 위해 모델 포맷을 1) ONNX 또는 SavedModel 형태로 저장한 뒤,2) Conversion을 통해 TensorRT/vLLM 등의 Engine로 변환하고3) Triton Inference Server로 배포하는 과정을 거침 Triton Inference Server 란? Triton이란 AI 모델을 여러 환경에서 빠르고 유연하게 서비스할 수 있게 해주는 서버 플랫폼 모델 최적화 이후 “실제 서비스화”를 위한 단계에서 모델을 HTTP..