-
[GPU] NVIDIA GPU 세대별 비교표AI 2025. 7. 6. 16:41728x90
NVIDIA GPU 세대별 비교표
회사 들어오고 나서의 최고 장점은
뭐니뭐니 해도 빵빵한 GPU 클러스터를 지원 받는다는 점이다
클라우드 하는 우리 회사야 고맙다
1. GPU 아키텍처 기초 용어 설명
1.1 NVIDIA 아키텍처 진화표
아키텍처 출시년 라인업 주요 혁신 대표 모델 Maxwell 2014 게이밍 전력 효율 혁신 GTX 980, GTX 970 Pascal 2016 게이밍/AI 16nm 공정, HBM 메모리 GTX 1080, P100 Volta 2017 AI 전용 텐서 코어 최초 도입 V100 Turing 2018 게이밍 RT 코어, DLSS 1.0 RTX 2080, RTX 2070 Ampere 2020 게이밍/AI 3세대 텐서, TF32/BF16 RTX 3090, A100 Ada Lovelace 2022 게이밍 DLSS 3.0, AV1 인코딩 RTX 4090, RTX 4080 Hopper 2022 AI 전용 FP8 정밀도, Transformer Engine H100, H200 Blackwell 2024 통합 5세대 텐서, DLSS 4.0 RTX 5090, B200 2. 컴퓨팅 스펙 용어 설명
2.1 프로세싱 유닛 종류
유닛 타입 역할 개수 특징 비유 CUDA 코어 일반 병렬 계산 수천~수만 개 많을수록 빠름 공장의 일반 작업자 텐서 코어 AI 전용 연산 수백~수천 개 AI 성능 결정적 AI 전문가 RT 코어 레이트레이싱 수십~수백 개 그래픽 품질 결정 빛 물리학자 스트리밍 멀티프로세서 (SM) 코어들의 관리자 수십~백 개 전체 효율성 공장의 팀장 2.2 텐서 코어 세대별 발전
세대 도입 아키텍처 지원 정밀도 주요 개선점 성능 향상 1세대 Volta (V100) FP16, FP32 최초 AI 가속 기준 2세대 Turing (RTX 20) + INT8, INT4 추론 최적화 1.5배 3세대 Ampere (A100) + BF16, TF32 희소성 지원 2배 4세대 Hopper (H100) + FP8 Transformer 최적화 4배 5세대 Blackwell (RTX 5090) 모든 정밀도 효율성 극대화 6배 2.3 클럭 속도 개념
클럭 타입 의미 특징 실제 동작 비유 베이스 클럭 기본 보장 속도 항상 유지 안정적 동작 고속도로 최저 제한속도 부스트 클럭 최대 가능 속도 조건부 달성 온도/전력 의존 고속도로 최고 제한속도 메모리 클럭 메모리 동작 속도 데이터 전송 속도 대역폭 결정 물류 트럭 속도 2.4 성능 측정 단위
단위 의미 용도 크기 개념 예시 GFLOPS 초당 10억 번 연산 기본 계산 성능 작은 단위 스마트폰 GPU TFLOPS 초당 1조 번 연산 고성능 계산 일반적 단위 RTX 5090: 125 TFLOPS TOPS 초당 1조 번 AI 연산 AI 전용 성능 AI 특화 지표 RTX 5090: 3,352 AI TOPS PFLOPS 초당 1000조 번 연산 슈퍼컴퓨터 매우 큰 단위 H100 클러스터 2.5 정밀도(데이터 타입) 비교표
정밀도 크기 정확도 범위 메모리 사용량 속도 용도 FP64 64bit 매우 높음 (15자리) 8바이트 가장 느림 과학 시뮬레이션 FP32 32bit 높음 (7자리) 4바이트 기준 일반 계산, 게이밍 TF32 32bit FP16 정확도 4바이트 FP16 속도 AI 학습 (Ampere+) FP16 16bit 중간 (3자리) 2바이트 2배 빠름 AI 추론/학습 BF16 16bit FP16보다 안정 2바이트 2배 빠름 AI 학습 (구글 개발) FP8 8bit 낮지만 AI 충분 1바이트 4배 빠름 대규모 AI (H100+) INT8 8bit 정수 (-128~127) 1바이트 매우 빠름 AI 추론 (양자화) INT4 4bit 정수 (-8~7) 0.5바이트 극도로 빠름 극한 최적화 2.6 메모리 타입 비교
메모리 타입 특징 대역폭 용량 비용 주요 사용 GDDR6X 게이밍용 표준 ~1,000 GB/s 12-24GB 저렴 RTX 4090 GDDR7 차세대 게이밍 ~1,800 GB/s 16-32GB 중간 RTX 5090 HBM2 1세대 AI 메모리 ~900 GB/s 16-32GB 비쌈 V100 HBM2e 2세대 AI 메모리 ~2,000 GB/s 40-80GB 매우 비쌈 A100 HBM3 3세대 AI 메모리 ~3,400 GB/s 80GB 극도로 비쌈 H100 HBM3e 최신 AI 메모리 ~4,800 GB/s 141GB 최고가 H200 3. 전체 GPU 비교 개요
V100 1세대 Volta 2017 데이터센터/AI ₩10,000,000-20,000,000 A100 2세대 Ampere 2020 데이터센터/AI ₩13,000,000-20,000,000 RTX 4090 3세대 Ada Lovelace 2022 게이밍/창작 ₩2,100,000 H100 3세대 Hopper 2022 데이터센터/AI ₩33,000,000-52,000,000 RTX 5090 4세대 Blackwell 2025 게이밍/창작 ₩2,700,000 H200 4세대 Hopper+ 2024 데이터센터/AI ₩40,000,000-58,000,000 4. 상세 스펙 비교표
4.1 기본 스펙
모델 프로세스 트랜지스터 다이 크기 TDP 메모리 용량 메모리 타입 메모리 대역폭 V100 12nm 21.1B 815mm² 300W 16/32GB HBM2 900 GB/s A100 7nm 54.2B 826mm² 400W 40/80GB HBM2e 1,555-2,039 GB/s RTX 4090 5nm 76.3B 608mm² 450W 24GB GDDR6X 1,008 GB/s H100 4nm 80B 814mm² 700W 80GB HBM3 3,352 GB/s RTX 5090 4nm 92.2B 750mm² 575W 32GB GDDR7 1,792 GB/s H200 4nm 80B 814mm² 700W 141GB HBM3e 4,800 GB/s 5. AI/ML 성능 비교
5.1 텐서 성능 (AI 워크로드)
모델 FP64 FP32 FP16 BF16 TF32 INT8 FP8 AI TOPS V100 7.8 TFLOPS 15.7 TFLOPS 125 TFLOPS ✗ ✗ ✗ ✗ 125 A100 9.7 TFLOPS 19.5 TFLOPS 312 TFLOPS 312 TFLOPS 165 TFLOPS 624 TOPS ✗ 624 RTX 4090 1.3 TFLOPS 83 TFLOPS 165 TFLOPS 165 TFLOPS 83 TFLOPS 660 TOPS ✗ 660 H100 34 TFLOPS 67 TFLOPS 989 TFLOPS 989 TFLOPS 495 TFLOPS 1,979 TOPS 3,958 TOPS 3,958 RTX 5090 2.6 TFLOPS 125 TFLOPS 250 TFLOPS 250 TFLOPS 125 TFLOPS 1,000 TOPS 2,000 TOPS 3,352 H200 34 TFLOPS 67 TFLOPS 989 TFLOPS 989 TFLOPS 495 TFLOPS 1,979 TOPS 3,958 TOPS 3,958 5.2 지원 정밀도 매트릭스
모델 FP64 FP32 FP16 BF16 TF32 FP8 INT8 INT4 V100 ✓ ✓ ✓ ✗ ✗ ✗ ✓ ✗ A100 ✓ ✓ ✓ ✓ ✓ ✗ ✓ ✓ RTX 4090 ✓ ✓ ✓ ✓ ✓ ✗ ✓ ✓ H100 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ RTX 5090 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ H200 ✓ ✓ ✓ ✓ ✓ ✓ ✓ ✓ 6. 아키텍처별 세대 분석
6.1 1세대 AI GPU - Volta (2017)
대표 모델: V100 혁신 포인트: - 텐서 코어 최초 탑재 → AI 시대 개막 - 혼합 정밀도 연산 (FP32 + FP16) - 100 TFLOPS 벽 최초 돌파 기술적 의미: - GPU가 단순 그래픽에서 AI 연산으로 확장 - "AI 가속기"라는 새로운 카테고리 창조 - 딥러닝 혁명의 하드웨어 기반 제공 현재 위치: - 구세대이지만 여전히 실용적 - 가성비 우수한 추론 전용 - 레거시 시스템에서 활용
6.2 2세대 AI GPU - Ampere (2020)
대표 모델: A100, RTX 3090 혁신 포인트: - 3세대 텐서 코어 (희소성 지원으로 2배 성능) - Multi-Instance GPU (하나를 7개까지 분할) - TF32, BF16 새로운 정밀도 표준 정립 기술적 의미: - AI가 실험실에서 실무로 이동 - 클라우드 AI 서비스의 기반 - "AI 민주화"의 하드웨어 토대 게이밍 라인: - RTX 3090: 소비자용 최초 24GB VRAM - DLSS 2.0으로 AI가 게이밍에 본격 도입
6.3 3세대 분화 - Ada Lovelace vs Hopper (2022)
Ada Lovelace (게이밍 특화)
대표 모델: RTX 4090, RTX 4080 게이밍 혁신: - DLSS 3.0 (AI 프레임 생성) - 3세대 RT 코어 (레이트레이싱 2배 향상) - AV1 인코딩 (스트리밍 최적화) AI 성능: - 660 AI TOPS (A100과 비슷) - 24GB VRAM으로 개인 AI 연구 가능 - 가성비 최고의 AI 입문용
Hopper (AI 전문화)
대표 모델: H100 AI 혁신: - FP8 정밀도 최초 지원 (게임 체인저) - Transformer Engine (언어모델 최적화) - 4세대 NVLink (GPU간 통신 2배 향상) 기술적 의미: - 대규모 언어모델 시대 개막 - ChatGPT, GPT-4의 기술적 기반 - AI와 게이밍의 아키텍처 분화 시작
6.4 4세대 통합 - Blackwell (2024-2025)
통합 아키텍처의 의미
혁신 포인트: - 게이밍과 AI 아키텍처 재통합 - 5세대 텐서 코어 (효율성 대폭 개선) - 멀티 프레임 생성 (DLSS 4.0) 기술적 의미: - AI가 모든 컴퓨팅의 기본 요소로 정착 - "AI 네이티브" 컴퓨팅 시대 시작 - 전문가용과 소비자용의 기술 격차 축소 RTX 5090: - 소비자용 최초 FP8 지원 - 3,352 AI TOPS (H100 수준) - "개인용 슈퍼컴퓨터" 개념 실현
728x90'AI' 카테고리의 다른 글
GPU 메모리 대역폭 - V100, A100, H100 중심 (0) 2025.07.06 [2023 Spring NLP Seminar] Data-Centric AI : Chapter 1 (0) 2023.04.05 Discriminative Model / Generative Model (1) 2023.02.24 강화 학습 참고할 사이트 (0) 2021.09.23 Argparse 자습서 (0) 2021.09.08