워크플로우, 클러스터 관리, 스케쥴링, 오케스트레이션을 위한 엔터프라이즈급 솔루션을 살펴보세요.
NVIDIA DGX™ 지원 소프트웨어 프로그램은 AI 워크플로우를 가속화하고 AI 인프라의 배포, 접근성, 활용도를 개선하는 엔터프라이즈급 MLOps 솔루션을 제공합니다. DGX 시스템에서 사용할 수 있도록 테스트와 인증을 거친 DGX 지원 소프트웨어는 AI 플랫폼 투자를 최대한 활용할 수 있게 도와줍니다.
MLOps 솔루션은 AI 워크플로우 관리 애플리케이션, 클러스터 관리, 파이프라인 오케스트레이션, 리소스 스케쥴링을 포괄하여 AI 인프라의 효율성과 활용도를 극대화합니다.
파트너의 인증 소프트웨어 솔루션에 대해 알아보세요.
Weights & Biases(W&B)는 머신 러닝 실무자를 위한 개발자 스택입니다. 머신 러닝 프로젝트의 전체 수명 주기를 디버깅하고 재현하는 데 W&B의 상호 운용 가능한 가벼운 도구를 사용하세요. W&B는 더 나은 의학, 안전한 자율주행 자동차, 지속 가능한 농업 및 첨단 연구를 개발하는 150,000명 이상의 머신 러닝 실무자들의 신뢰를 받고 있습니다. Weight & Biases MLOps 소프트웨어는 NVIDIA DGX 시스템에서 사용하도록 인증되었으며 NVIDIA Base Command와 함께 사용할 수 있습니다.
Lablup Backend.AI 및 NVIDIA DGX 시스템을 통해 편리하고 강력한 AI 개발을 경험해 보세요. Backend.AI를 사용하면 DGX 시스템을 포함한 NVIDIA 가속 컴퓨팅의 엄청난 컴퓨팅 성능을 손쉽게 최대한 활용할 수 있습니다.
Bright Computing 소프트웨어는 확실한 차이점을 만들어냅니다. 코어, 엣지에서 클라우드까지 걸친 HPC, 머신 러닝, 분석 애플리케이션을 호스팅하는 이종 고성능 클러스터를 빠르게 구축하고 관리하세요.
ClearML은 DGX 시스템 기반의 관리 및 오케스트레이션 스택을 제공합니다. ClearML을 사용하면 팀에서는 워크로드를 더 쉽게 관리하고, 데이터와 모델의 가시성과 제어력을 향상하고, 효과적으로 협업할 수 있습니다.
ClearML Orchestrate을 사용하면 팀에서는 하나 이상의 NVIDIA DGX A100 시스템을 사용하여 원격 가상 개발 환경 모두에 가상 클러스터를 만들고 확장 가능한 트레이닝 워크로드를 지원할 수 있습니다.
NVIDIA DGX Station™ A100, NVIDIA Clara™ Imaging 및 ClearML을 통해 메디컬 이미징 워크플로우 간소화하기(솔루션 개요)
Shakudo의 Hyperplane 플랫폼은 머신 러닝 팀을 위한 엔드 투 엔드 환경입니다. Hyperplane은 최고의 오픈 소스 도구와 프레임워크를 최고의 개발자 경험을 위해 설계되었으며 사전 구성되고 조정된 단일 플랫폼에 결합합니다. Shakudo의 접근 방식은 단일 UI 및 지속적으로 진화하는 멀티 프레임워크, 멀티 인프라 백엔드를 제공하는 것이며, 이는 업계에서 우세한 머신 러닝 스택에 부합합니다. RAPIDS™, NVIDIA Triton™ Inference Server, NVIDIA MIG(Multi-Instance GPU) 및 기타 강력한 NVIDIA 기술을 완전히 지원하는 NVIDIA DGX 시스템에서 Hyperplane을 시작 및 실행하는 것은 간단합니다. Hyperplane은 개발 및 실험에서부터 모델의 확장 및 배포, ETL(추출, 변환 및 부하) 작업, 프로덕션 워크로드의 실험 추적, 모니터링 및 실시간 문제 해결에 이르기까지 전체 머신 러닝 수명 주기를 다룹니다.
Domino 데이터 사이언스 플랫폼은 협업을 통해 모델을 더 빠르고 효율적으로 구축, 트레이닝, 배포, 관리할 수 있도록 엔터프라이즈 전반에서 데이터 사이언스 작업 및 인프라를 중앙 집중화합니다. 데이터 사이언티스트는 Domino를 통해 더 빨리 혁신하고, 팀에서는 작업을 다시 사용하고 더욱 다양한 협업을 펼칠 수 있으며, IT 팀에서는 인프라를 관리하고 운영할 수 있습니다.
Lockheed Martin이 데이터 사이언스를 통해 로켓 과학의 한계를 뛰어넘는 방법(온디맨드 웨비나)
Determined는 모델을 빠르고 쉽게 구축하는 오픈 소스 딥 러닝 트레이닝 플랫폼입니다. Determined로 다음과 같은 일을 할 수 있습니다.
Iguazio 데이터 사이언스 플랫폼은 AI 프로젝트를 현실의 비즈니스 성과로 바꿔줍니다. MLOps 및 머신 러닝 파이프라인의 엔드 투 엔드 자동화를 통해 AI 애플리케이션의 개발, 배포, 관리를 가속화하고 확장하세요.
Paperspace Gradient는 프로덕션 준비를 마친 머신 러닝 및 딥 러닝 모델의 개발과 배포를 가속하고 확장합니다. 이 플랫폼은 업계 최초의 포괄적인 지속적 통합/지속적 배포(CI/CD) 엔진을 기반으로 딥 러닝 모델을 구축하고 트레이닝하고 배포합니다. Paperspace의 동급 최고의 머신 러닝 도구 및 방법론은 오늘날 현대적인 엔터프라이즈의 멀티 클라우드, 온프레미스 및 하이브리드 환경을 지원합니다. NVIDIA NGC와도 연동되며 NVIDIA DGX 시스템에 최적화되어 있습니다.
Red Hat OpenShift는 무궁한 가능성을 지닌 하이브리드 클라우드 플랫폼으로, 무엇이든 구축할 수 있을 정도로 강력하며 유연하게 어디서든 작동합니다.
DGX 지원 소프트웨어 프로그램의 일부로 OpenShift를 사용하는 고객은 NVIDIA DGX 시스템의 클러스터에서 OpenShift를 통해 검증, 테스트, 인증된 엔터프라이즈급 소프트웨어 솔루션에 액세스할 수 있습니다. 그러면 AI 인프라의 배포, 관리, 확장을 간소화하는 데 도움이 됩니다. 게다가 에코시스템 파트너사는 OpenShift를 활용하여 더 크게 확장과 반복이 가능한 방법으로 솔루션을 개발하여 고객에게 제공할 수 있습니다.
Pachyderm은 머신 러닝(ML) 팀이 머신 러닝 수명 주기를 생산하고 확장할 수 있는 데이터 계층을 제공합니다. NVIDIA DGX™ 시스템과 함께 사용하도록 인증된 Pachyderm의 업계 최고의 데이터 버저닝은 파이프라인 및 계보 팀에 데이터 기반 자동화, 페타바이트 규모의 확장성 및 엔드 투 엔드 재현성을 보장합니다. Pachyderm을 사용하는 팀은 ML 프로젝트를 더 빨리 출시하고 데이터 처리 및 저장 비용을 낮추며 규정 준수 요구 사항을 더 쉽게 충족할 수 있습니다.
D2iQ Kaptain은 Kubeflow로 구동되는 엔터프라이즈급 엔드 투 엔드 머신 러닝(ML) 플랫폼으로, ML 프로토타입과 생산 간의 장벽을 허물어 시장 출시 시간과 긍정적인 ROI를 가속화합니다. D2iQ Kaptain을 사용하면 조직이 하이브리드 및 클라우드 환경에서 ML 워크로드를 대규모로 개발 및 배포할 수 있습니다.
D2iQ Konvoy는 포괄적인 Kubernetes 배포로, 기업들이 쉽고 즉시 사용할 수 있는 엔터프라이즈급 경험을 통해 Kubernetes를 활용할 수 있도록 지원합니다. Konvoy는 순수 업스트림 오픈 소스 소프트웨어를 기반으로 구축되었으며 하이브리드 및 클라우드 환경을 위해 2일차 생산에 필요한 추가 기능을 선택, 통합 및 테스트했습니다.
D2iQ Kubernetes 플랫폼 및 NVIDIA DGX 시스템(솔루션 개요)
Run:AI는 AI를 오케스트레이션하고 가속화하는 세계 최초의 컴퓨팅 관리 플랫폼을 구축했습니다. Run:AI는 GPU 컴퓨팅 리소스를 중앙 집중화하고 가상화함으로써 리소스의 우선순위 지정 및 할당에 대한 가시성과 제어 기능을 제공할 뿐 아니라, 데이터 사이언티스트를 위해 워크플로우를 간소화하고 인프라의 번거로움을 없애줍니다. 이를 통해 AI 프로젝트와 비즈니스 목표를 맞추고 데이터 사이언스 팀의 생산성을 크게 향상되도록 보장하므로 리소스 제한 없이 동시 모델을 구축하고 트레이닝할 수 있습니다.
데이터 사이언스를 가속하는 최고의 AI 인프라 스택 구축하기(온디맨드 웨비나)
Canonical의 Ubuntu는 NVIDIA DGX, NVIDIA EGX™, NVIDIA NGC™ 컨테이너 등을 위한 최적화된 플랫폼으로 데이터 사이언티스트와 엔지니어가 더 생산적으로 혁신할 수 있도록 지원합니다. Canonical Kubernetes는 최적화된 Ubuntu 이미지를 기반으로 구축되며 모든 컴퓨팅 환경에 독보적인 통합 및 운영을 제공합니다. 완전한 수명 주기 자동화로 강화되어 다재다능한 멀티 클라우드 Kubernetes는 개발자에게 기초 및 추상화를 제공하여 NVIDIA DGX 시스템에서 최신 AI 솔루션을 만드는 데 집중할 수 있도록 해줍니다.
http://www.microk8s.io/docs/nvidia-dgx
http://www.ubuntu.com/kubernetes/docs/nvidia-dgx
NVIDIA DGX 시스템에서 제공된 Canonical의 Kubernetes 솔루션 개요
까다로운 분산 컴퓨팅 환경을 위한 완전한 워크로드 관리 솔루션인 IBM Spectrum® LSF® 제품군 포트폴리오는 관리 비용을 줄이는 동시에 사용자 생산성과 하드웨어 활용도를 높이는 데 도움을 줍니다. LSF 제품군은 고전적 고성능 컴퓨팅(HPC), 빅데이터, GPU, 머신 러닝(ML) 및 AI, 컨테이너화된 워크로드를 온프레미스 및 클라우드에서 지원합니다. 동적 하이브리드 클라우드 버스팅 및 지능형 데이터 스테이징은 조직이 사용하는 것에 대해서만 비용을 지불할 수 있도록 지원하여 비용을 제어하는 데 도움이 됩니다.
NVIDIA DGX 시스템을 통해 IBM Spectrum 사용하기
SchedMD는 Slurm의 핵심 개발사이자 서비스 제공업체로, 클라우드 및 온프레미스 클러스터에 지원, 컨설팅, 구성, 개발 및 트레이닝 서비스를 제공합니다. Slurm은 가장 복잡하고 까다로운 HPC, 높은 처리량 컴퓨팅(HTC) 및 AI 시스템을 위해 설계된 시장 최고의 오픈 소스 워크로드 관리자입니다. Slurm은 워크로드 처리량 및 신뢰성을 극대화하는 동시에 소비를 최적화하고 클라우드 및 온프레미스 클러스터 전반의 워크로드를 관리합니다.
Slurm은 NVIDIA GPU에 다음과 같은 주요 스케쥴링을 제공합니다.
Slurm 및 NVIDIA DGX 시스템을 통한 고성능 및 AI 워크로드 가속화
Altair의 주력 워크로드 관리 및 작업 스케쥴링 솔루션인 Altair® PBS Professional®은 NVIDIA DGX 시스템을 포함한 GPU 환경의 성능에 최적화되어 있습니다. PBS Professional에는 멀티 노드 DGX 클러스터에서의 대규모 AI 및 고성능 컴퓨팅(HPC) 워크로드 스케쥴링과 MIG(Multi-Instance GPU)를 활용한 개별 GPU 워크로드에 대한 지원이 포함됩니다.
NVIDIA DGX 시스템에 대한 Altair PBS Professional 지원