728x90
distributed learning
-
[멀티노드 분산학습] FSDP + Accelerate로 Multi Node Training하기AI/NLP 2025. 5. 24. 11:21
[멀티노드 분산학습] FSDP + Accelerate로 Multi Node Training하기 H100 멀티노드 학습해야 되는데, 방법을 정리한다 FSDP + Accelerate로 Multi Node Training참고Fine-tuning Llama 2 70B using PyTorch FSDP[Linux] Slurm 스케줄러 활용법SLURM 예시 파일Takeaway Message.FSDP+Accelerate 기반으로 분산학습 수행할 땐 SLURM (Simple Linux Utility for Resource Management)라는 것을 사용한다고 함SLURM이란 ?cluster server 상에서 작업을 관리하기 위한 프로그램 -> 여러 대의 서버에서 학습을 자동으로 분산 실행하고 자원을 ..