세상은 내가 정하는 대로

LLM 서빙하기 (2) - Triton Inference Server로 LLM 서빙하기 (HuggingFace 모델을 Triton으로 배포하는 방법)

AI/NLP 2025. 4. 5. 20:03

LLM 서빙하기 (2) - Triton Inference Server로 LLM 서빙하기 (HuggingFace 모델을 Triton으로 배포하는 방법) 아래에선 HuggingFace 모델을 Triton으로 배포하는 방법을 배워보자 https://github.com/triton-inference-server/tutorials/tree/main/HuggingFace Triton에 HuggingFace 모델 배포하는 2가지 방법:✅ 방법 1: Python Backend 사용 (전체 파이프라인 통째로 배포)빠르고 간단하게 배포하고 싶을 때 사용Python 코드 안에 전처리 → 모델 추론 → 후처리 모두 포함model.py에서 TritonPythonModel 클래스를 만들고,initialize(..

LLM 서빙하기 (1) - Triton Inference Server란?

AI/NLP 2025. 3. 23. 21:24

LLM 서빙하기 (1) - Triton Inference Server란? 실제 서비스를 만들려면,사용자 요청을 받고모델에 입력을 넣고추론 결과를 받아서 응답해야 함 일반적인 PyTorch 혹은 Transformers 모델 배포 성능을 극대화하기 위해 모델 포맷을 1) ONNX 또는 SavedModel 형태로 저장한 뒤,2) Conversion을 통해 TensorRT/vLLM 등의 Engine로 변환하고3) Triton Inference Server로 배포하는 과정을 거침 Triton Inference Server 란? Triton이란 AI 모델을 여러 환경에서 빠르고 유연하게 서비스할 수 있게 해주는 서버 플랫폼 모델 최적화 이후 “실제 서비스화”를 위한 단계에서 모델을 HTTP..

LLM 빠르게 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant)

AI/NLP 2025. 3. 23. 19:23

LLM 빠르게 추론하기 (1) - Quantization - 양자화 방법론과 원리 (PTQ, QWA, bitsandbytes, GPTQ, AWQ, SmoothQuant) 이전 포스트까지는 모델을 학습할 때 있어서의 효율을 확보하고자 하는 방법들이라면, 이번 포스트부터는 이렇게 학습한 모델들을 가지고 어떻게 하면 좀 더 빠르게 추론하고 서빙할 수 있을지에 대한 방법론들을 알아본다 오늘 살펴볼 양자화는 추론 효율은 극대화하나 성능이 저하된다는 본질적인 한계를 가지고 있다. 양자화란? 양자화란 부동소수점 데이터를 더 적은 메모리를 사용하는 정수 형식으로 변환해 GPU를 효율적으로 사용하는 방법을 말함기본적으로 FP32 형식으로 모델 파라미터를 저장했다면, 최근엔 모델이 점점 커지면서 FP16를 사..

시간, 메모리 효율적으로 LLM 학습하기 (2) (DP, DDP, FSDP, DeepSpeed ... )

AI/NLP 2024. 11. 4. 22:14

시간, 메모리 효율적으로 LLM 학습하기 (2)(DP, DDP, FSDP, DeepSpeed ... ) 모델을 학습시키다 보면 OOM 문제를 맞닥뜨리게도 되고, 또 학습하는 시간 때문에도 골머리를 앓게 된다...! 본인에게 가능한 환경에서 최대한의 퍼포먼스를 낼 수 있는 방법을 찾아보자! 본 포스트에서는 Multi GPU 환경에서 할 수 있는 방안에 대해서 살펴본다 아래의 글과 영상을 참고한다. https://huggingface.co/docs/transformers/perf_train_gpu_many Efficient Training on Multiple GPUsIf training a model on a single GPU is too slow or if the model’s weig..

시간, 메모리 효율적으로 LLM 학습하기 (1) (Gradient Accumulation, Gradient Checkpointing, Mixed Precision Training ... )

AI/NLP 2024. 11. 4. 22:12

시간, 메모리 효율적으로 LLM 학습하기 (1) (Gradient Accumulation, Gradient Checkpointing, Mixed Precision Training ... ) 모델을 학습시키다 보면 OOM 문제를 맞닥뜨리게도 되고, 또 학습하는 시간 때문에도 골머리를 앓게 된다...! 본인에게 가능한 환경에서 최대한의 퍼포먼스를 낼 수 있는 방법을 찾아보자! 본 포스트에서는 Single GPU 환경에서 할 수 있는 방안에 대해서 살펴본다 https://huggingface.co/docs/transformers/en/perf_train_gpu_one Methods and tools for efficient training on a single GPUThis guide demon..

LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 (+ Adapter, Prefix Tuning)

AI/NLP 2024. 6. 4. 13:16

LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 최근에 나온 MoRA를 읽어보기 전에 LoRA 논문을 올리지 않은 것 같아, 이번 기회에 정리! 사용 방법에 대한 코드도 함께 정리해볼 예정이다 들어가기 전에 : PeFT의 등장 배경 Fully Fine Tuning Parameter-efficient approach세타는 오리지널 파라미터보다 훨씬 적은 양의 파라미터세타_0에 아주 작은 변화량 더해준다 => 이게 LoRA의 핵심이다 Abstract & Introduction Transfer learning의 붐이 시작된 이래로 수십 개의 연구에서 parameter와 compute-efficient하게 model adaptation..

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning 논문 리뷰

AI/NLP 2024. 6. 4. 13:15

MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning 논문 리뷰 Abstract & Introduction https://asidefine.tistory.com/309 LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 (+ Adapter, Prefix Tuning)LoRA: Low-Rank Adaptation of Large Language Models 논문 리뷰 최근에 나온 MoRA를 읽어보기 전에 LoRA 논문을 올리지 않은 것 같아, 이번 기회에 정리! 사용 방법에 대한 코드도 함께 정리해볼 예정이asidefine.tistory.com LoRA의 한계점 지적 Full Fine Tu..

Query Expansion by Prompting Large Language Models (Google, 2023) 논문 리뷰

AI/NLP 2024. 5. 24. 17:43

Query Expansion by Prompting Large Language Models (Google, 2023) 논문 리뷰 Abstract + Introduction Query Expansion정의 : 원문 Query에 몇가지 용어를 추가해서 검색 시스템의 성능을 향상시키는 방법원문 Query랑 단어가 겹치지 않는 관련 document들을 뽑아내는 데 유용하다 기존의 방식 Pseudo-Revevance Feedback (PRF): 원문 Query를 입력했을 때 나오는 Document에서 키워드를 추출해서, 그 키워드를 포함한 다른 Document 반환하는 방식 한계 : 가장 위에 retrieve되는 document가 query와 관련있다고 생각하는데, 실제로 특히 query가 짧은 경우엔 ..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역