홈
태그
방명록

분류 전체보기 (218)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

세상은 내가 정하는 대로 세상은 내가 정하는 대로

컨텐츠 검색 블로그 내 검색

728x90

onnx

LLM 서빙하기 (1) - Triton Inference Server란?
AI/NLP 2025. 3. 23. 21:24

LLM 서빙하기 (1) - Triton Inference Server란? 실제 서비스를 만들려면,사용자 요청을 받고모델에 입력을 넣고추론 결과를 받아서 응답해야 함 일반적인 PyTorch 혹은 Transformers 모델 배포 성능을 극대화하기 위해 모델 포맷을 1) ONNX 또는 SavedModel 형태로 저장한 뒤,2) Conversion을 통해 TensorRT/vLLM 등의 Engine로 변환하고3) Triton Inference Server로 배포하는 과정을 거침 Triton Inference Server 란? Triton이란 AI 모델을 여러 환경에서 빠르고 유연하게 서비스할 수 있게 해주는 서버 플랫폼 모델 최적화 이후 “실제 서비스화”를 위한 단계에서 모델을 HTTP..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

728x90

Designed by Tistory.

티스토리툴바