AI, 데이터 분석, HPC 애플리케이 션을 위한 안전하고, 멀티-테넌트의 베어 메탈 성능
클라우드 기반 슈퍼컴퓨팅은 고성능 컴퓨팅의 동력과 클라우드 컴퓨팅 서비스의 보안 및 사용 편의성을 아우릅니다. NVIDIA 클라우드 기반의 슈퍼컴퓨팅 플랫폼은 NVIDIA® BlueField® 데이터 처리 장치(DPU) 아키텍처를 짧은 지연 시간의 고속 NVIDIA Quantum InfiniBand 네트워킹으로 지원하여 베어 메탈 성능, 사용자 관리 및 분리, 데이터 보호 및 온디맨드 고성능 컴퓨팅(HPC) 및 AI 서비스를 간결하고 안전하게 제공합니다.
슈퍼컴퓨터가 성능을 극대화하려면 멀티 테넌시 보안을 제공해야 하며, 이는 클라우드 기반 플랫폼을 통해 이상적으로 실현할 수 있습니다. 이 아키텍처를 전환할 수 있는 핵심 요소는 DPU입니다.
완전히 통합된 데이터센터-온-칩(DOC) 플랫폼인 DPU는 호스트 프로세서가 아닌 데이터센터 인프라를 오프로드 및 관리할 수 있으므로 슈퍼컴퓨터의 보안과 오케스트레이션 수준을 향상합니다.
NVIDIA Quantum InfiniBand 스위치를 결합한 아키텍처는 멀티 노드 테넌트 격리를 기본적으로 지원하는 동시에 최적의 베어 메탈 성능을 보장합니다.
클라우드를 기반으로 하는 슈퍼컴퓨팅 시스템은 멀티 테넌트 환경에서 성능, 보안 및 오케스트레이션 수준을 극대화하도록 설계되었습니다.
BlueField DPU는 신뢰할 수 없는 멀티 노드 테넌트를 호스팅할 수 있으며, 새 테넌트에 슈퍼컴퓨팅 리소스가 원래 상태 그대로 깔끔하게 인계되도록 보장합니다. BlueField DPU는 이를 실현하기 위해 새로 예약된 테넌트에 클린 부팅 이미지를 제공하고, 완전한 클린업과 신뢰 재구축을 수행하고, 스토리지를 가상화하며, 승인된 스토리지 영역에 대한 액세스를 부여합니다.
HPC 및 AI 통신 프레임워크와 라이브러리는 지연 시간과 대역폭에 민감한 요소이며 애플리케이션 성능을 결정하는 데 중요하게 작용합니다.
호스트 CPU 또는 GPU에서 Bluefield DPU로 라이브러리를 오프로드하면 통신 및 연산을 병렬적으로 처리하기 위해 최고 수준으로 중복됩니다. 또한 운영 체제 내의 지터 현상에 따른 부정적인 영향을 줄이고 애플리케이션 성능을 대폭 향상합니다. 이는 차세대 슈퍼컴퓨팅 아키텍처를 구현하는 데 핵심이 되는 요소입니다.
오하이오 주립대학교에서 연구한 초기 결과에 따르면 클라우드 기반 슈퍼컴퓨터가 기존 컴퓨터보다 1.3배 더 빠른 속도로 HPC 작업을 수행할 수 있는 것으로 나타났습니다.
1성능 테스트는 다음의 시스템 구성에 따라 HPC-AI 자문위원회의 클러스터 센터에서 수행되었습니다. 32개의 서버에 듀얼 소켓 Intel Xeon 16코어 CPU E5-2697A V4 @ 2.60GHz(노드당 총 32개 프로세서), 256GB DDR4 2400MHz RDIMM 메모리 및 노드당 1TB 7.2K RPM SATA 2.5" 하드 드라이브 장착. 서버는 NVIDIA BlueField-2 InfiniBand HDR100 DPU 및 NVIDIA Quantum QM7800 40포트 HDR 200Gb/s InfiniBand 스위치와 연결되었습니다.
NVIDIA Quantum-2 InfiniBand 플랫폼은 혁신적인 사전 모니터링 및 혼잡 관리를 제공하여 트래픽 격리를 제공하고, 성능 지터를 거의 제거하고, 애플리케이션이 전용 시스템에서 실행되는 것처럼 예측 성능을 보장합니다.
NVIDIA BlueField DPU는 업계 최고의 NVIDIA ConnectX® 네트워크 어댑터, PCIe 하위 시스템과 Arm 코어 어레이, HPC 하드웨어 가속화 엔진을 결합해 데이터센터 인프라-온-칩(DOC) 프로그래밍 기능을 완벽하게 제공합니다.
NVIDIA Quantum InfiniBand 네트워킹은 데이터 전송을 가속화하여 오프로드하므로 데이터 또는 대역폭 부족으로 인해 컴퓨팅 리소스가 “고갈”되지 않도록 지원합니다. InfiniBand 네트워크는 서로 다른 사용자 또는 테넌트 사이에서 분할되어 보안 및 QoS 보장 기술을 제공합니다.
NVIDIA DOCA SDK를 사용하면 인프라 개발자가 NVIDIA BlueField DPU를 통해 네트워크, 스토리지, 보안, 관리 솔루션을 빠르게 생성하고 업계 표준 API를 활용하여 AI 및 HPC 애플리케이션과 서비스를 확장할 수 있습니다. 개발자는 DOCA를 이용해 뛰어난 성능을 자랑하는 소프트웨어 정의 및 클라우드 기반의 DPU 가속화 서비스를 창출하여 다음 시대를 위한 슈퍼컴퓨팅 인프라를 프로그래밍할 수 있습니다.
NVIDIA MAGNUM IO™ 소프트웨어 개발 키트를 활용하는 개발자는 애플리케이션의 입출력(IO)을 최적화하여 워크플로우 시간을 총괄적으로 단축할 수 있습니다.
Magnum IO는 스토리지, 네트워킹, 멀티 GPU 및 멀티 노드 통신을 비롯한 모든 측면의 IO에 적용 가능합니다. 또한 애플리케이션을 프로파일링 및 조정하고 IO 병목 현상을 방지할 수 있는 도구도 제공합니다.