GPU
-
GPU 메모리 대역폭 - V100, A100, H100 중심AI 2025. 7. 6. 18:42
GPU 메모리 대역폭 - V100, A100, H100 중심 1. GPU 메모리 대역폭이란?GPU의 메모리 구조:[GPU 칩] [메모리 (HBM/GDDR)] | |CUDA 코어들 모델 가중치텐서 코어들 활성화 데이터 KV 캐시 대역폭의 의미:GPU 칩이 메모리와 초당 주고받을 수 있는 데이터양= 얼마나 빨리 모델 데이터를 읽고 쓸 수 있는가 2. V100, A100, H100의 메모리 대역폭 비교V100HBM216/32GB900 GB/s2017A100 40GBHBM2e40GB1,555 GB/s2020A100 80GBHBM2..
-
[GPU] NVIDIA GPU 세대별 비교표AI 2025. 7. 6. 16:41
NVIDIA GPU 세대별 비교표 회사 들어오고 나서의 최고 장점은 뭐니뭐니 해도 빵빵한 GPU 클러스터를 지원 받는다는 점이다 클라우드 하는 우리 회사야 고맙다 1. GPU 아키텍처 기초 용어 설명 1.1 NVIDIA 아키텍처 진화표아키텍처 출시년 라인업 주요 혁신 대표 모델Maxwell2014게이밍전력 효율 혁신GTX 980, GTX 970Pascal2016게이밍/AI16nm 공정, HBM 메모리GTX 1080, P100Volta2017AI 전용텐서 코어 최초 도입V100Turing2018게이밍RT 코어, DLSS 1.0RTX 2080, RTX 2070Ampere2020게이밍/AI3세대 텐서, TF32/BF16RTX 3090, A100Ada Lovelace2022게이밍DLSS 3.0, AV..
-
[GPU/메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드)AI/NLP 2025. 7. 6. 15:51
[메모리] 내 GPU엔 몇 B 모델까지 올라갈 수 있을까? (+ 필요 메모리 계산하는 코드) 들어가기 전 간단한 계산 정도는 아래 포스트에서 대충 적어놨었다 (https://asidefine.tistory.com/317)하지만 어렴풋한 감으로 하는 것보다 원리부터 다시 ! 1. 핵심 개념 정리1.1 메모리 구성 요소공통 요소:- 모델 파라미터: 실제 가중치- 입력 데이터: 배치 처리용 토큰들- 시스템 오버헤드: 프레임워크 메모리추론 전용:- KV 캐시: 생성 속도 향상용 캐시학습 전용:- 그래디언트: 역전파용 기울기- 옵티마이저 상태: Adam/SGD 내부 상태- 중간 활성화: 역전파용 순전파 결과1.2 데이터 정밀도정밀도 바이트 메모리 비율 성능 영향FP324100%기준FP16250%거의 ..
-
[멀티노드 분산학습] FSDP + Accelerate로 Multi Node Training하기AI/NLP 2025. 5. 24. 11:21
[멀티노드 분산학습] FSDP + Accelerate로 Multi Node Training하기 H100 멀티노드 학습해야 되는데, 방법을 정리한다 FSDP + Accelerate로 Multi Node Training참고Fine-tuning Llama 2 70B using PyTorch FSDP[Linux] Slurm 스케줄러 활용법SLURM 예시 파일Takeaway Message.FSDP+Accelerate 기반으로 분산학습 수행할 땐 SLURM (Simple Linux Utility for Resource Management)라는 것을 사용한다고 함SLURM이란 ?cluster server 상에서 작업을 관리하기 위한 프로그램 -> 여러 대의 서버에서 학습을 자동으로 분산 실행하고 자원을 ..