[GPU] NVIDIA GPU 세대별 비교표

AI 2025. 7. 6. 16:41

728x90

NVIDIA GPU 세대별 비교표

회사 들어오고 나서의 최고 장점은

뭐니뭐니 해도 빵빵한 GPU 클러스터를 지원 받는다는 점이다

클라우드 하는 우리 회사야 고맙다

1. GPU 아키텍처 기초 용어 설명

1.1 NVIDIA 아키텍처 진화표

아키텍처	출시년	라인업	주요 혁신	대표 모델
Maxwell	2014	게이밍	전력 효율 혁신	GTX 980, GTX 970
Pascal	2016	게이밍/AI	16nm 공정, HBM 메모리	GTX 1080, P100
Volta	2017	AI 전용	텐서 코어 최초 도입	V100
Turing	2018	게이밍	RT 코어, DLSS 1.0	RTX 2080, RTX 2070
Ampere	2020	게이밍/AI	3세대 텐서, TF32/BF16	RTX 3090, A100
Ada Lovelace	2022	게이밍	DLSS 3.0, AV1 인코딩	RTX 4090, RTX 4080
Hopper	2022	AI 전용	FP8 정밀도, Transformer Engine	H100, H200
Blackwell	2024	통합	5세대 텐서, DLSS 4.0	RTX 5090, B200

2. 컴퓨팅 스펙 용어 설명

2.1 프로세싱 유닛 종류

유닛 타입	역할	개수	특징	비유
CUDA 코어	일반 병렬 계산	수천~수만 개	많을수록 빠름	공장의 일반 작업자
텐서 코어	AI 전용 연산	수백~수천 개	AI 성능 결정적	AI 전문가
RT 코어	레이트레이싱	수십~수백 개	그래픽 품질 결정	빛 물리학자
스트리밍 멀티프로세서 (SM)	코어들의 관리자	수십~백 개	전체 효율성	공장의 팀장

2.2 텐서 코어 세대별 발전

세대	도입 아키텍처	지원 정밀도	주요 개선점	성능 향상
1세대	Volta (V100)	FP16, FP32	최초 AI 가속	기준
2세대	Turing (RTX 20)	+ INT8, INT4	추론 최적화	1.5배
3세대	Ampere (A100)	+ BF16, TF32	희소성 지원	2배
4세대	Hopper (H100)	+ FP8	Transformer 최적화	4배
5세대	Blackwell (RTX 5090)	모든 정밀도	효율성 극대화	6배

2.3 클럭 속도 개념

클럭	타입 의미	특징	실제 동작	비유
베이스 클럭	기본 보장 속도	항상 유지	안정적 동작	고속도로 최저 제한속도
부스트 클럭	최대 가능 속도	조건부 달성	온도/전력 의존	고속도로 최고 제한속도
메모리 클럭	메모리 동작 속도	데이터 전송 속도	대역폭 결정	물류 트럭 속도

2.4 성능 측정 단위

단위	의미	용도	크기	개념 예시
GFLOPS	초당 10억 번 연산	기본 계산 성능	작은 단위	스마트폰 GPU
TFLOPS	초당 1조 번 연산	고성능 계산	일반적 단위	RTX 5090: 125 TFLOPS
TOPS	초당 1조 번 AI 연산	AI 전용 성능	AI 특화 지표	RTX 5090: 3,352 AI TOPS
PFLOPS	초당 1000조 번 연산	슈퍼컴퓨터	매우 큰 단위	H100 클러스터

2.5 정밀도(데이터 타입) 비교표

정밀도	크기	정확도 범위	메모리 사용량	속도	용도
FP64	64bit	매우 높음 (15자리)	8바이트	가장 느림	과학 시뮬레이션
FP32	32bit	높음 (7자리)	4바이트	기준	일반 계산, 게이밍
TF32	32bit	FP16 정확도	4바이트	FP16 속도	AI 학습 (Ampere+)
FP16	16bit	중간 (3자리)	2바이트	2배 빠름	AI 추론/학습
BF16	16bit	FP16보다 안정	2바이트	2배 빠름	AI 학습 (구글 개발)
FP8	8bit	낮지만 AI 충분	1바이트	4배 빠름	대규모 AI (H100+)
INT8	8bit	정수 (-128~127)	1바이트	매우 빠름	AI 추론 (양자화)
INT4	4bit	정수 (-8~7)	0.5바이트	극도로 빠름	극한 최적화

2.6 메모리 타입 비교

메모리 타입	특징	대역폭	용량	비용	주요 사용
GDDR6X	게이밍용 표준	~1,000 GB/s	12-24GB	저렴	RTX 4090
GDDR7	차세대 게이밍	~1,800 GB/s	16-32GB	중간	RTX 5090
HBM2	1세대 AI 메모리	~900 GB/s	16-32GB	비쌈	V100
HBM2e	2세대 AI 메모리	~2,000 GB/s	40-80GB	매우 비쌈	A100
HBM3	3세대 AI 메모리	~3,400 GB/s	80GB	극도로 비쌈	H100
HBM3e	최신 AI 메모리	~4,800 GB/s	141GB	최고가	H200

3. 전체 GPU 비교 개요

V100	1세대	Volta	2017	데이터센터/AI	₩10,000,000-20,000,000
A100	2세대	Ampere	2020	데이터센터/AI	₩13,000,000-20,000,000
RTX 4090	3세대	Ada Lovelace	2022	게이밍/창작	₩2,100,000
H100	3세대	Hopper	2022	데이터센터/AI	₩33,000,000-52,000,000
RTX 5090	4세대	Blackwell	2025	게이밍/창작	₩2,700,000
H200	4세대	Hopper+	2024	데이터센터/AI	₩40,000,000-58,000,000

4. 상세 스펙 비교표

4.1 기본 스펙

모델	프로세스	트랜지스터 다이 크기	TDP 메모리	용량	메모리 타입	메모리	대역폭
V100	12nm	21.1B	815mm²	300W	16/32GB	HBM2	900 GB/s
A100	7nm	54.2B	826mm²	400W	40/80GB	HBM2e	1,555-2,039 GB/s
RTX 4090	5nm	76.3B	608mm²	450W	24GB	GDDR6X	1,008 GB/s
H100	4nm	80B	814mm²	700W	80GB	HBM3	3,352 GB/s
RTX 5090	4nm	92.2B	750mm²	575W	32GB	GDDR7	1,792 GB/s
H200	4nm	80B	814mm²	700W	141GB	HBM3e	4,800 GB/s

5. AI/ML 성능 비교

5.1 텐서 성능 (AI 워크로드)

모델	FP64	FP32	FP16	BF16	TF32	INT8	FP8	AI TOPS
V100	7.8 TFLOPS	15.7 TFLOPS	125 TFLOPS	✗	✗	✗	✗	125
A100	9.7 TFLOPS	19.5 TFLOPS	312 TFLOPS	312 TFLOPS	165 TFLOPS	624 TOPS	✗	624
RTX 4090	1.3 TFLOPS	83 TFLOPS	165 TFLOPS	165 TFLOPS	83 TFLOPS	660 TOPS	✗	660
H100	34 TFLOPS	67 TFLOPS	989 TFLOPS	989 TFLOPS	495 TFLOPS	1,979 TOPS	3,958 TOPS	3,958
RTX 5090	2.6 TFLOPS	125 TFLOPS	250 TFLOPS	250 TFLOPS	125 TFLOPS	1,000 TOPS	2,000 TOPS	3,352
H200	34 TFLOPS	67 TFLOPS	989 TFLOPS	989 TFLOPS	495 TFLOPS	1,979 TOPS	3,958 TOPS	3,958

5.2 지원 정밀도 매트릭스

모델	FP64	FP32	FP16	BF16	TF32	FP8	INT8	INT4
V100	✓	✓	✓	✗	✗	✗	✓	✗
A100	✓	✓	✓	✓	✓	✗	✓	✓
RTX 4090	✓	✓	✓	✓	✓	✗	✓	✓
H100	✓	✓	✓	✓	✓	✓	✓	✓
RTX 5090	✓	✓	✓	✓	✓	✓	✓	✓
H200	✓	✓	✓	✓	✓	✓	✓	✓

6. 아키텍처별 세대 분석

6.1 1세대 AI GPU - Volta (2017)

대표 모델: V100
혁신 포인트:
- 텐서 코어 최초 탑재 → AI 시대 개막
- 혼합 정밀도 연산 (FP32 + FP16)
- 100 TFLOPS 벽 최초 돌파

기술적 의미:
- GPU가 단순 그래픽에서 AI 연산으로 확장
- "AI 가속기"라는 새로운 카테고리 창조
- 딥러닝 혁명의 하드웨어 기반 제공

현재 위치:
- 구세대이지만 여전히 실용적
- 가성비 우수한 추론 전용
- 레거시 시스템에서 활용

6.2 2세대 AI GPU - Ampere (2020)

대표 모델: A100, RTX 3090
혁신 포인트:
- 3세대 텐서 코어 (희소성 지원으로 2배 성능)
- Multi-Instance GPU (하나를 7개까지 분할)
- TF32, BF16 새로운 정밀도 표준 정립

기술적 의미:
- AI가 실험실에서 실무로 이동
- 클라우드 AI 서비스의 기반
- "AI 민주화"의 하드웨어 토대

게이밍 라인:
- RTX 3090: 소비자용 최초 24GB VRAM
- DLSS 2.0으로 AI가 게이밍에 본격 도입

6.3 3세대 분화 - Ada Lovelace vs Hopper (2022)

Ada Lovelace (게이밍 특화)

대표 모델: RTX 4090, RTX 4080
게이밍 혁신:
- DLSS 3.0 (AI 프레임 생성)
- 3세대 RT 코어 (레이트레이싱 2배 향상)
- AV1 인코딩 (스트리밍 최적화)

AI 성능:
- 660 AI TOPS (A100과 비슷)
- 24GB VRAM으로 개인 AI 연구 가능
- 가성비 최고의 AI 입문용

Hopper (AI 전문화)

대표 모델: H100
AI 혁신:
- FP8 정밀도 최초 지원 (게임 체인저)
- Transformer Engine (언어모델 최적화)
- 4세대 NVLink (GPU간 통신 2배 향상)

기술적 의미:
- 대규모 언어모델 시대 개막
- ChatGPT, GPT-4의 기술적 기반
- AI와 게이밍의 아키텍처 분화 시작

6.4 4세대 통합 - Blackwell (2024-2025)

통합 아키텍처의 의미

혁신 포인트:
- 게이밍과 AI 아키텍처 재통합
- 5세대 텐서 코어 (효율성 대폭 개선)
- 멀티 프레임 생성 (DLSS 4.0)

기술적 의미:
- AI가 모든 컴퓨팅의 기본 요소로 정착
- "AI 네이티브" 컴퓨팅 시대 시작
- 전문가용과 소비자용의 기술 격차 축소

RTX 5090:
- 소비자용 최초 FP8 지원
- 3,352 AI TOPS (H100 수준)
- "개인용 슈퍼컴퓨터" 개념 실현

728x90

'AI' 카테고리의 다른 글

GPU 메모리 대역폭 - V100, A100, H100 중심 (0)	2025.07.06
[2023 Spring NLP Seminar] Data-Centric AI : Chapter 1 (0)	2023.04.05
Discriminative Model / Generative Model (1)	2023.02.24
강화 학습 참고할 사이트 (0)	2021.09.23
Argparse 자습서 (0)	2021.09.08

ABOUT ME

세상은 내가 정하는 대로 세상은 내가 정하는 대로

1.1 NVIDIA 아키텍처 진화표

2.1 프로세싱 유닛 종류

2.2 텐서 코어 세대별 발전

2.3 클럭 속도 개념

2.4 성능 측정 단위

2.5 정밀도(데이터 타입) 비교표

2.6 메모리 타입 비교

4.1 기본 스펙

5.1 텐서 성능 (AI 워크로드)

5.2 지원 정밀도 매트릭스

6.1 1세대 AI GPU - Volta (2017)

6.2 2세대 AI GPU - Ampere (2020)

6.3 3세대 분화 - Ada Lovelace vs Hopper (2022)

Ada Lovelace (게이밍 특화)

Hopper (AI 전문화)

6.4 4세대 통합 - Blackwell (2024-2025)

통합 아키텍처의 의미

'AI' 카테고리의 다른 글

티스토리툴바

ABOUT ME

1.1 NVIDIA 아키텍처 진화표

2.1 프로세싱 유닛 종류

2.2 텐서 코어 세대별 발전

2.3 클럭 속도 개념

2.4 성능 측정 단위

2.5 정밀도(데이터 타입) 비교표

2.6 메모리 타입 비교

4.1 기본 스펙

5.1 텐서 성능 (AI 워크로드)

5.2 지원 정밀도 매트릭스

6.1 1세대 AI GPU - Volta (2017)

6.2 2세대 AI GPU - Ampere (2020)

6.3 3세대 분화 - Ada Lovelace vs Hopper (2022)

Ada Lovelace (게이밍 특화)

Hopper (AI 전문화)

6.4 4세대 통합 - Blackwell (2024-2025)

통합 아키텍처의 의미

'AI' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바