NVIDIA Ampere 아키텍처

세계 최고 성능과 탄력성을 갖춘 데이터센터의 중심.

최신 데이터센터의 AI 및 HPC의 핵심

AI 및 HPC로 세계에서 가장 중요한 과학, 산업 및 비즈니스 과제를 해결합니다. 복잡한 콘텐츠를 시각화하여 최첨단 제품을 만들고, 몰입형 스토리를 전달하고, 미래의 도시를 새롭게 상상합니다. 대규모 데이터세트에서 새로운 인사이트를 추출합니다. 탄력적인 컴퓨팅의 시대에 설계된 NVIDIA Ampere 아키텍처는 모든 규모에서 비교할 수 없는 가속화를 제공하여 이 모든 문제를 해결하고자 합니다.

획기적인 혁신

540억 개의 트랜지스터로 제작된 NVIDIA Ampere 아키텍처는 현재까지 제작된 가장 큰 7나노미터(nm) 칩으로, 획기적인 6개의 주요 혁신 사항을 선보입니다.

3세대 Tensor 코어

NVIDIA Volta™ 아키텍처에서 최초로 도입된 NVIDIA Tensor 코어 기술은 AI에 극적인 가속을 제공하여 트레이닝 시간을 몇 주에서 몇 시간으로 단축하고 추론 속도를 크게 높입니다. NVIDIA Ampere 아키텍처는 새로운 정밀도인 Tensor Float 32(TF32) 및 부동 소수점 정밀도 64(FP64)를 도입해 이러한 혁신을 토대로 구축되어 AI 채택을 가속화 및 단순화하고 Tensor 코어의 성능을 HPC로 확장합니다.

TF32는 아무런 코드 변경 없이 AI를 최대 20배로 가속하면서 FP32와 마찬가지로 작동합니다. NVIDIA 자동 혼합 정밀도를 사용하면 연구원들은 단 몇 줄의 코드를 추가하여 자동 혼합 정밀도 및 FP16을 통해 추가적으로 2배의 성능을 얻을 수 있습니다. 그리고 NVIDIA Ampere 아키텍처 Tensor 코어 GPU의 Tensor 코어는 bfloat16, INT8 및 INT4 지원으로 AI 트레이닝과 추론 모두에 놀랍도록 다재다능한 가속기를 생성합니다. 또한, A100A30 GPUs GPU는 Tensor 코어의 성능을 HPC에 도입하여 완전하고 IEEE 인증을 받은 FP64 정밀도로 매트릭스 연산을 지원합니다.

3세대 Tensor 코어
MIG(Multi-Instance GPU)

MIG(Multi-Instance GPU)

모든 AI 및 HPC 애플리케이션은 가속의 이점을 얻을 수 있지만 모든 애플리케이션에 GPU의 전체 성능이 필요한 것은 아닙니다. MIG(Multi-Instance GPU)는 A100  및 A30 GPUs GPU에서 지원되는 기능으로, 워크로드가 GPU를 공유할 수 있도록 합니다. MIG를 통해 각 GPU은 자체 고대역폭 메모리, 캐시, 컴퓨팅 코어로 하드웨어 수준에서 완전히 격리되고 보호되는 여러 개의 GPU 인스턴스로 분할될 수 있습니다. 이제 개발자는 크고 작은 모든 응용 프로그램을 획기적으로 가속화할 수 있으며 보장된 서비스 품질을 경험할 수 있습니다. 그리고 IT 관리자는 최적화된 활용을 위한 적절한 규모의 GPU 가속화를 제공할 수 있으며 베어 메탈 및 가상화된 환경 전반에서 모든 사용자와 애플리케이션으로 액세스를 확장할 수 있습니다.

구조적 희소성

구조적 희소성

최신 AI 네트워크는 매개변수가 수백만 개, 일부 경우에는 수십억 개에 달하는 대규모로, 점점 더 그 규모가 커지고 있습니다. 이 매개변수가 정확한 예측과 추론에 모두 필요한 것은 아니므로, 일부는 정확성을 감소시키지 않고 모델을 "희소"하게 만들기 위해 0으로 변환할 수 있습니다. Tensor 코어는 희소한 모델에 대해 최대 2배 높은 성능을 제공할 수 있습니다. 희소성 기능은 AI 추론에 더 수월하게 이점을 제공하지만, 모델 트레이닝의 성능을 개선하는 데 사용할 수도 있습니다.

2세대 RT 코어

NVIDIA A40의 NVIDIA Ampere 아키텍처 2세대 RT 코어는 영화 콘텐츠의 사실적인 렌더링, 건축 설계 평가, 제품 설계 가상 프로토타입 제작 등의 워크로드를 위한 엄청난 속도를 제공합니다. RT 코어는 또한 시각적 정확도가 더 뛰어난 결과를 더 빠르게 제공하기 위해 레이 트레이싱 처리된 모션 블러의 렌더링 속도를 향상하며, 고급 음영 처리 또는 노이즈 제거 기능과 함께 레이 트레이싱을 동시에 실행할 수 있습니다.

2세대 RT 코어
더 스마트하고 빠른 메모리

더 스마트하고 빠른 메모리

A100 은 데이터센터에 방대한 양의 컴퓨팅을 제공합니다. 이러한 컴퓨팅 엔진의 활용도를 완전하게 유지하기 위해 이전 세대에 비해 2배 이상 높은, 업계 최고 수준인 초당 2테라바이트(TB/s)의 메모리 대역폭을 제공합니다. 또한, A100은 40MB 레벨 2 캐시를 포함하여 이전 세대에 비해 7배 더 많은 온 칩 메모리를 보유함으로써 컴퓨팅 성능을 극대화합니다.

규모에 맞는 최적화

NVIDIA GPU 및 NVIDIA 통합 가속기 제품은 클라우드, 데이터 센터 및 엣지에 네트워킹, 보안 및 소규모 설치 공간을 제공하기 위해 구축되었습니다.

모든 서버에 최적화된 전력

포트폴리오 제품 가운데 가장 작은 면적을 차지하는 NVIDIA A2 GPU는 5G 엣지 및 산업 환경과 같은 공간 및 열 요구 사항의 제약을 받는 엔트리급 서버의 추론 워크로드 및 배포에 최적화되어 있습니다. A2는 60W에서 40W에 이르는 열 설계 전력(TDP)의 저전력 포락선에서 작동하는 로우 프로필 폼 팩터를 제공하므로 모든 서버에 이상적입니다.

모든 서버에 최적화된 전력
통합 컴퓨팅 및 네트워크 가속화

통합 컴퓨팅 및 네트워크 가속화

NVIDIA Converged Accelerator에서는 NVIDIA Ampere 아키텍처와 NVIDIA BlueField®-2데이터 처리 장치(DPU)가 함께 엣지 컴퓨팅, 통신 및 네트워크 보안 분야의 AI 기반 워크로드를 위한 독보적 성능과 향상된 보안 및 네트워킹을 실현합니다. BlueField-2는 소프트웨어 정의 스토리지, 네트워킹, 보안 및 관리를 위해 NVIDIA ConnectX®-6 Dx의 성능과 프로그래밍 가능한 Arm® 코어 및 하드웨어 오프로드가 결합되어 있습니다. NVIDIA Converged Accelerator는 네트워크 집약적인 GPU 가속 워크로드를 위한 새로운 차원의 데이터센터 효율성과 보안을 실현합니다.

밀도에 최적화된 디자인

NVIDIA A16 GPU는 사용자 밀도에 최적화된 쿼드 GPU 보드 디자인으로 제공되며, NVIDIA 가상 PC(vPC) 소프트웨어와 결합되어 그래픽이 풍부한 가상 PC를 어디서든 액세스할 수 있도록 지원합니다. NVIDIA A16을 통해 CPU 전용 VDI 대비 향상된 프레임 레이트 및 더 짧은 최종 사용자 지연 시간을 제공하여 네이티브 PC와 구별할 수 없을 정도로 반응성이 더 높은 애플리케이션과 사용자 경험을 실현할 수 있습니다.

밀도에 최적화된 디자인
안전한 배포

안전한 배포

안전한 배포는 엔터프라이즈 비즈니스 운영에 매우 중요합니다. NVIDIA Ampere 아키텍처는 선택적으로 신뢰할 수 있는 코드 인증 및 강화된 롤백 보호 기능을 통해 안전한 부팅을 제공하여 악성 멀웨어 공격으로부터 보호함으로써 운영 손실을 방지하고 워크로드 가속화를 보장합니다.

NVIDIA Ampere 아키텍처 내부

아키텍처의 최첨단 기술과 GPU의 전체 라인업을 살펴보세요.