NVIDIA NIM™은 클라우드, 데이터 센터, 워크스테이션, 엣지 등의 NVIDIA 가속 인프라에 최신 AI 모델을 빠르게 배포하기 위해 사전 구축되고 최적화된 추론 마이크로서비스를 제공합니다.
NVIDIA NIM은 관리형 API의 사용 편의성 및 운영 간소화와 사용자가 선호하는 인프라에서 자체 호스팅 모델의 유연성과 보안을 결합합니다. NIM 마이크로서비스는 최신 AI 파운데이션 모델, 최적화된 추론 엔진, 업계 표준 API, 런타임 종속성 등 AI 팀에 필요한 모든 것을 포함하며, 어디에서나 배포하고 확장할 수 있는 엔터프라이즈급 소프트웨어 컨테이너에 사전 패키지로 제공됩니다.
고성능 AI를 위해 구축된 쉬운 엔터프라이즈급 마이크로서비스는 원활하게 작동하고 경제적으로 확장할 수 있도록 설계되었습니다. 추론, 시뮬레이션, 음성 등을 위한 최신 AI 모델을 기반으로 하는 AI 에이전트와 기타 엔터프라이즈 생성형 AI 애플리케이션의 가치 실현 시간을 가장 빠르게 경험해 보세요.
최신 AI 모델을 위해 사전 구축되고 최적화된 마이크로서비스를 사용하여 혁신을 가속화하고 출시 시간을 단축해 보세요. 표준 API를 사용하면 모델을 5분 안에 배포할 수 있으며, 애플리케이션에 손쉽게 통합할 수 있습니다.
NVIDIA가 엄격한 검증 프로세스와 전용 기능 브랜치를 통해 지속적으로 관리하는 엔터프라이즈급 마이크로서비스를 배포해 보세요. 이 모든 기능은 NVIDIA 엔터프라이즈를 통해 지원되며, NVIDIA AI 전문가와의 직접 상담할 수 있습니다.
클라우드에서 확장되는 짧은 지연 시간과 높은 처리량의 AI 추론으로 TCO를 개선하고, 파인 튜닝된 모델에 대한 지원으로 즉시 최상의 정확도를 달성하세요.
클라우드, 데이터 센터, 워크스테이션 등 NVIDIA 가속 인프라에서 실행할 수 있는 사전 구축된 클라우드 네이티브 마이크로서비스로 어디에나 배포하고, 쿠버네티스 및 클라우드 서비스 제공 업체 환경에서 원활하게 확장하세요.
NVIDIA NIM은 토큰 생성을 극대화하고, 피크 타임 동안의 동시 사용자를 지원하며, 응답성을 향상시키기 위해 최적화된 처리량과 지연 시간을 제공합니다. NIM 마이크로서비스는 최적화된 최신 추론 엔진으로 지속적으로 업데이트되어 동일한 인프라에서 시간이 지남에 따라 성능을 향상시킵니다.
구성: Llama 3.1 8B instruct, H100 SXM 1개, 동시 요청: 200. NIM 켜짐: FP8, 처리량 1201토큰/초, ITL 32ms. NIM 꺼짐: FP8, 처리량 613토큰/초, ITL 37ms.
NVIDIA® TensorRT™-LLM, vLLM, SGLang 등이 지원하는 거대 언어 모델(LLM)을 배포하여 NVIDIA 가속 인프라에서 지연 시간이 짧고 처리량이 높은 추론을 실행할 수 있습니다.
어디에서나 실행할 수 있도록 설계된 NIM 추론 마이크로서비스는 엔터프라이즈 시스템 및 애플리케이션과 쉽게 통합할 수 있도록 업계 표준 API를 제공하며, 쿠버네티스에서 원활하게 확장하여 클라우드 규모에서 높은 처리량과 짧은 지연 시간의 추론을 제공합니다.
단 한 줄의 명령어로 모델에 NIM을 배포하세요. 또한 fine-tuning된 모델을 포함하여 NVIDIA TensorRT-LLM, vLLM, SGLang 등이 지원되는 LLM으로 NIM을 간편하게 실행할 수도 있습니다.
NVIDIA 가속 인프라를 기반으로 최적의 런타임 엔진으로 NIM을 시작하고 실행하세요.
몇 줄의 코드로 자체 호스팅 NIM 엔드포인트를 통합하세요.
NVIDIA NIM이 어떻게 산업 사용 사례를 지원하는지 알아보고 엄선된 예제로 AI 개발을 빠르게 시작하세요.
생성형 AI로 고객 경험을 향상시키고 비즈니스 프로세스를 개선하세요.
생성형 AI를 사용하여 문서 처리를 가속화하고 자동화하세요.
AI의 힘으로 고객 만족도를 높이는 맞춤형 경험을 제공하세요.
OpenUSD와 생성형 AI를 사용하여 3D 제품 컨피규레이터 도구와 경험을 개발하고 거의 모든 장치에 배포하세요.