NVIDIA H100 Tensor 코어 GPU

모든 데이터센터를 위한 전례 없는 성능, 확장성, 보안

가속화된 컴퓨팅을 위한 비약적인 도약

NVIDIA H100 Tensor 코어 GPU로 모든 워크로드에 대해 전례 없는 성능, 확장성, 보안을 달성하세요. NVIDIA® NVLink® 스위치 시스템을 사용하면 최대 256개의 H100을 연결하여 엑사스케일 워크로드를 가속화하고 전용 트랜스포머 엔진으로 매개 변수가 조 단위인 언어 모델을 지원합니다. H100은 NVIDIA Hopper 아키키텍처의 혁신을 이용하여 대규모 언어 모델의 속도를 이전 세대에 비해 30배 더 향상하는 업계 선도의 대화형 AI를 제공합니다.

엔터프라이즈에서 워크로드를 엑사스케일까지 안전하게 가속화

초대형 모델에서 최대 9배의 AI 훈련

전문가 혼합(3,950억 매개 변수)

혁신적인 AI 훈련

혁신적인 AI 훈련

NVIDIA H100 GPU는 4세대 Tensor 코어와 FP8 정밀도의 트랜스포머 엔진을 탑재하여 MoE(mixture-of-experts) 모델을 이전 세대보다 최대 9배 더 빠르게 훈련시킵니다. 900GB/s의 GPU 간 상호 연결을 제공하는 4세대 NVLink 스위치 시스템, 노드 전반의 모든 GPU에서 집단 통신을 가속화하는 PCIe Gen5, NVIDIA Magnum IO 소프트웨어의 조합은 소규모 엔터프라이즈에서 대규모의 통합 GPU 클러스터에 이르기까지 효율적인 확장성을 제공합니다.

데이터센터 규모로 H100 GPU를 배포하면 탁월한 성능을 제공하며 차세대 엑사스케일 고성능 컴퓨팅(HPC)과 매개 변수가 조 단위인 AI를 모든 연구원이 이용할 수 있습니다.

실시간 딥 러닝 추론

AI는 동등하게 광범위한 신경망을 사용하여 다양한 비즈니스 문제를 해결합니다. 뛰어난 AI 추론 가속기는 최고의 성능뿐만 아니라 이러한 네트워크를 가속화할 수 있는 다용성도 제공해야 합니다.

H100은 NVIDIA의 업계 최고의 추론 리더십을 더욱 강화하여 추론을 최대 30배 가속화하고 지연 시간을 최소화합니다. 4세대 Tensor 코어는 FP64, TF32, FP32, FP16, INT8을 비롯한 모든 정밀도에서 속도를 개선하며, 트랜스포머 엔진은 FP8과 FP16을 함께 활용해 대규모 언어 모델의 정확도를 유지하면서 메모리 사용량을 줄이고 성능을 향상합니다.

초대형 모델에서 최대 30배 더 높은 AI 추론 성능

Megatron 챗봇(5,300억 매개 변수)

 

실시간 딥 러닝 추론

HPC 애플리케이션 성능 최대 7배

AI-fused HPC Applications

엑사스케일 고성능 컴퓨팅

NVIDIA 데이터센터 플랫폼은 무어의 법칙을 뛰어넘는 성능 향상을 일관적으로 제공합니다. 또한 H100의 새롭고 획기적인 AI 기능은 HPC+AI의 성능을 더욱 증폭하여 전 세계의 주요 난제들을 해결하기 위해 노력하는 과학자와 연구원의 연구 시간을 단축합니다.

H100은 배정밀도 Tensor 코어의 부동 소수점 연산(FLOPS)을 3배로 증가시켜 HPC에 60테라플롭스의 FP64 컴퓨팅을 제공합니다. AI 융합 HPC 애플리케이션은 H100의 TF32 정밀도를 활용하여 코드 변경 없이 단정밀도와 행렬 곱셈 연산에서 1페타플롭의 처리량을 달성할 수 있습니다.

H100은 또한 NVIDIA A100 Tensor 코어 GPU에 비해 7배 높은 성능과 더불어 DNA 서열 정렬을 위한 스미스-워터맨 등의 동적 프로그래밍 알고리즘에서 기존 듀얼 소켓 CPU 전용 서버에 비해 40배 더 빠른 속도를 제공하는 DPX 명령 기능이 있습니다.

데이터 분석

AI 애플리케이션 개발에서는 대부분의 시간이 데이터 분석에 소요될 때가 많습니다. 대규모 데이터 세트가 여러 서버에 흩어져 있기 때문에 상용 CPU 전용 서버를 사용하는 스케일아웃 솔루션은 확장 가능한 컴퓨팅 성능이 부족하여 발목을 잡히곤 합니다.

H100을 탑재한 가속화 서버는 GPU당 3TB/s의 메모리 대역폭 및 NVLink와 NVSwitch를 통한 확장성과 함께 컴퓨팅 성능을 제공하여 고성능으로 데이터 분석을 처리하고 대규모 데이터 세트를 지원하도록 확장할 수 있습니다. NVIDIA 데이터센터 플랫폼은 Quantum-2 Infiniband, Magnum IO 소프트웨어, GPU 가속 Spark 3.0, NVIDIA RAPIDS와 결합하여 전례 없는 수준의 성능과 효율성으로 이러한 막대한 워크로드를 가속화할 수 있는 독보적인 위치에 있습니다.

H100을 통해 가속화된 서버
NVIDIA MIG(Multi-Instance GPU)

엔터프라이즈 지원 활용률

IT 관리자들은 데이터센터에서 컴퓨팅 리소스의 활용률을(최대 활용률과 평균 활용률 모두) 극대화하려고 합니다. 이들은 종종 사용 중인 워크로드에 적합한 크기의 리소스로 컴퓨팅을 동적으로 재구성합니다.

H100의 2세대 MIG(Multi-Instance GPU)는 각 GPU를 최대 7개의 독립된 인스턴스로 안전하게 파티셔닝하여 활용률을 극대화합니다. 컨피덴셜 컴퓨팅을 지원하여 안전한 엔드 투 엔드 멀티 테넌트 사용이 가능한 H100은 클라우드 서비스 제공업체(CSP) 환경에 이상적입니다.

MIG를 사용하는 H100을 통해 인프라 관리자는 GPU 가속 인프라를 표준화하는 동시에 GPU 리소스를 더 세분화하여 유연하게 프로비저닝함으로써 개발자에게 적합한 양의 가속화 컴퓨팅을 제공하고 모든 GPU 리소스의 사용을 최적화할 수 있습니다.

NVIDIA 컨피덴셜 컴퓨팅과 보안

오늘날의 컨피덴셜 컴퓨팅 솔루션은 CPU 기반이므로 AI 및 HPC와 같은 컴퓨팅 집약적인 워크로드에는 너무 제한적입니다. NVIDIA 컨피덴셜 컴퓨팅은 NVIDIA Hopper 아키텍처의 내장 보안 기능입니다. 이를 탑재한 NVIDIA H100은 세계 최초로 컨피덴셜 컴퓨팅 기능을 갖춘 가속기입니다. 사용자는 전례 없이 가속화된 H100 GPU에 액세스하면서 사용 중인 데이터와 애플리케이션의 기밀성과 무결성을 보호할 수 있습니다. NVIDIA 컨피덴셜 컴퓨팅은 단일 H100 GPU, 단일 노드 내의 다중 H100 GPU 또는 개별 MIG 인스턴스에서 실행되는 전체 워크로드를 보호하고 격리하는 하드웨어 기반의 신뢰할 수 있는 실행 환경(TEE)을 생성합니다. GPU 가속 애플리케이션은 TEE 내에서 변경하지 않고 실행할 수 있으며, 파티셔닝할 필요가 없습니다. 사용자는 AI 및 HPC용 NVIDIA 소프트웨어의 성능과 NVIDIA 컨피덴셜 컴퓨팅이 제공하는 하드웨어 RoT(Root of Trust)의 보안을 결합할 수 있습니다.

NVIDIA 기밀 컴퓨팅 솔루션
NVIDIA H100CX Converged Accelerator

NVIDIA H100 CNX Converged Accelerator

NVIDIA H100 CNX는 NVIDIA H100의 성능과 NVIDIA ConnectX®-7 스마트 네트워크 인터페이스 카드(SmartNIC)의 고급 네트워킹 기능을 하나의 고유한 플랫폼으로 결합합니다. 이 결합은 엔터프라이즈 데이터센터의 분산 AI 훈련과 엣지의 5G 처리와 같은 GPU 기반 입력/출력(IO) 집약적 워크로드에 전례 없는 성능을 제공합니다.

NVIDIA Grace Hopper

Hopper Tensor Core GPU는 NVIDIA Grace Hopper CPU+GPU 아키텍처를 지원합니다. 테라바이트 규모의 가속 컴퓨팅을 위해 특별히 제작되었으며, 대규모 모델 AI 및 HPC에서 10배 더 높은 성능을 제공합니다. NVIDIA Grace CPU는 Arm® 아키텍처의 유연성을 활용하여 처음부터 가속화 컴퓨팅을 위해 설계된 CPU 및 서버 아키텍처를 생성합니다. Hopper GPU과 Grace가 결합되면 NVIDIA의 초고속 칩 간 상호 연결을 통해 PCIe Gen5보다 7배 빠른 900GB/s의 대역폭을 제공합니다. 이 혁신적인 설계는 오늘날의 가장 빠른 서버에 비해 최대 30배 높은 전체 대역폭과 테라바이트 규모의 데이터를 실행하는 애플리케이션에 최대 10배 더 높은 성능을 제공합니다.

NVIDIA 기밀 컴퓨팅 솔루션

제품 사양

폼 팩터 H100 SXM H100 PCIe
FP64 30테라플롭스 24테라플롭스
FP64 Tensor 코어 60테라플롭스 48테라플롭스
FP32 60테라플롭스 48테라플롭스
TF32 Tensor 코어 1,000테라플롭스* | 500테라플롭스 800테라플롭스* | 400테라플롭스
BFLOAT16 Tensor 코어 2,000테라플롭스* | 1,000테라플롭스 1,600테라플롭스* | 800테라플롭스
FP16 Tensor 코어 2,000테라플롭스* | 1,000테라플롭스 1,600테라플롭스* | 800테라플롭스
FP8 Tensor 코어 4,000테라플롭스* | 2,000테라플롭스 3,200테라플롭스* | 1,600테라플롭스
INT8 Tensor 코어 4,000TOPS* | 2,000TOPS 3,200TOPS* | 1,600TOPS
GPU 메모리 80GB 80GB
GPU 메모리 대역폭 3TB/s 2TB/s
디코더 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
최대 열 설계 전력(TDP) 700W 350W
멀티 인스턴스 GPU(MIG) 최대 7개의 MIG, 각각 10GB
폼 팩터 SXM PCIe
인터커넥트 NVLink: 900GB/s PCIe Gen5: 128GB/s NVLINK: 600GB/s PCIe Gen5: 128GB/s
서버 옵션 4개 또는 8개의 GPU가 지원되는 NVIDIA HGX H100 파트너 및 NVIDIA-Certified Systems 8개의 GPU가 지원되는 NVIDIA DGX H100 GPU가 1~8개인 파트너 인증 시스템 및 NVIDIA-Certified System™

NVIDIA Hopper 아키텍처에 대해 자세히 알아보세요.