GPU 플릿을 실시간으로 시각화하고 모니터링하세요.
개요
NVIDIA GPU Health는 NVIDIA GPU 디바이스 집합을 시각화하고 모니터링하기 위한 포괄적인 솔루션입니다. 클라우드 파트너와 엔터프라이즈는 이를 통해 사용량, 구성, 오류를 모니터링하여 GPU와 하드웨어 인프라의 가동 시간, 가용성, 품질, 무결성을 보장할 수 있습니다.
NVIDIA GPU Health는 GPU의 상태와 무결성을 모니터링하기 위한 솔루션입니다. 소프트웨어 스택이나 스케줄러 종류에 관계없이 사용할 수 있는, 배포 환경에 종속되지 않는 저수준의 관리형 서비스입니다. GPU Health는 현재 자체 GPU 인프라를 관리하는 데이터센터 고객과 GPU 동작에 대한 더 개선된 인사이트를 필요로 하는 소비자를 지원합니다. 이 솔루션은 NVIDIA의 제품 포트폴리오 전반의 기술을 활용하며, IP는 물론 NVIDIA DGX Cloud에서 수천 개의 GPU를 운영하여 얻은 인사이트를 활용합니다.
GPU Health 에이전트는 NVIDIA의 제품군 전반에서 GPU 관리 및 최적화 기술을 활용합니다. GPU Health 에이전트는 수집한 메트릭을 GPU Health 플랫폼으로 전달하며, 해당 데이터는 분석 및 저장되어 고객이 확인할 수 있도록 제공됩니다.
기능
GPU Health는 데이터센터와 클라우드 전반의 플릿 재고에 대한 풍부한 시각화 기능을 제공합니다. 이 솔루션은 GPU 작업자 노드에 쉽게 배포할 수 있는 에이전트를 사용하여 GPU Health와 안전한 통신을 구축합니다.
GPU Health 에이전트는 DGX Cloud의 제품군의 기술을 활용합니다. GPU Health 에이전트가 캡처한 지표는 검토를 위해 GPU Health로 다시 전달됩니다.
GPU Health는 NVIDIA의 컨피덴셜 컴퓨팅을 사용하여 GPU의 무결성을 검증합니다. 실행 중에 에이전트는 온디바이스 인증서와 NVIDIA Attestation SDK를 사용하여 증거를 수집하고 서명하여 시스템의 신뢰성을 보장합니다.
이점
스파이크와 제한을 추적하여 데이터센터 예산을 절약하고, 와트당 성능을 극대화하는 동시에 정전 사태를 방지합니다.
핫스팟과 공기 흐름 문제를 조기에 감지하여 열 제한과 부품의 조기 노후화를 방지합니다.
사용률, 메모리 대역폭, 인터커넥트 상태, 스로틀링 원인을 모니터링해 전체 GPU 시스템에서 성능 저하나 불균형을 빠르게 파악하세요.
표면 오류 수정 코드(ECC) 및 XID 오류, 폐기된 페이지, 고대역폭 메모리(HBM)를 비롯한 NVIDIA NVLink™ 및 PCIe의 이상 현상, 그리고 기타 안정성, 가용성, 서비스 유용성(RAS) 신호와 관련한 오류가 발생하기 전에 해당 현상을 미리 포착하는 데 도움이 됩니다.
일관된 드라이버, CUDA® 및 툴체인, 펌웨어, 전력 제한, 기본 입출력 시스템(BIOS) 설정을 적용하고 이미지 및 펌웨어 무결성을 검증하여 재현 가능한 결과와 안전한 작동을 보장합니다.
NVIDIA DGX Cloud는 AI 워크로드 사전 훈련, 파인튜닝, 추론, 피지컬 및 산업용 AI 애플리케이션의 배포를 가속화합니다.
소프트웨어 출시 업데이트, 관리자 설명서, 빠른 시작 가이드, 튜토리얼을 포함한 DGX Cloud의 기술 문서를 확인해 보세요.