더욱 빠르고 정확한 AI 추론

AI 지원 애플리케이션과 서비스로 획기적인 성능을 발휘하세요.

추론을 통해 AI는 결과를 제공하고 모든 산업 전반에 걸쳐 혁신을 촉진할 수 있습니다. AI 모델은 크기, 복잡성, 다양성이 빠르게 확장되어 가능한 것의 경계를 넓히고 있습니다. AI 추론을 성공적으로 사용하려면 조직과 MLOps 엔지니어에게 엔드투엔드 AI 수명 주기를 지원하는 풀 스택 접근 방식과 팀이 목표를 달성할 수 있도록 지원하는 도구가 필요합니다.


NVIDIA AI Enterprise로 차세대 AI 추론 배포

NVIDIA는 클라우드, 데이터 센터, 네트워크 엣지 및 네트워크 엣지에서 차세대 AI 추론을 지원하는 데 중요한 성능, 효율성 및 응답성을 제공하는 엔드투엔드 제품, 인프라 및 서비스 스택을 제공합니다. 임베디드 장치에서. 다양한 수준의 AI 전문 지식과 경험을 갖춘 MLOps 엔지니어, 데이터 사이언티스트, 애플리케이션 개발자 및 소프트웨어 인프라 엔지니어를 위해 설계되었습니다.

NVIDIA의 풀 스택 아키텍처 접근 방식은 AI 지원 애플리케이션이 최적의 성능, 더 적은 수의 서버, 더 적은 전력으로 배포되도록 보장하여 훨씬 더 낮은 비용으로 더 빠른 통찰력을 제공합니다.

엔터프라이즈급 추론 플랫폼인 NVIDIA AI Enterprise에는 동급 최고의 추론 소프트웨어, 안정적인 관리, 보안, API 안정성이 포함되어 있어 성능과 고가용성을 보장합니다.

NVIDIA AI Enterprise를 통해 AI 추론의 이점을 살펴보세요

배포 표준화

애플리케이션, AI 프레임워크, 모델 아키텍처 및 플랫폼 전반에 걸쳐 모델 배포를 표준화합니다.

쉬운 통합

퍼블릭 클라우드, 온프레미스 데이터 센터, 엣지의 도구 및 플랫폼과 쉽게 통합됩니다.

비용 절감

AI 인프라에서 높은 처리량과 활용도를 달성하여 비용을 절감합니다.

원활한 확장

애플리케이션 요구에 따라 추론을 원활하게 확장합니다.

고성능

NVIDIA 추론 플랫폼은 AI에 대한 업계 최고의 벤치마크인 MLPerf의 여러 범주에 걸쳐 지속적으로 기록적인 성능을 제공했습니다.

엔드투엔드 NVIDIA AI 추론 플랫폼

NVIDIA AI 추론 소프트웨어

NVIDIA AI 엔터프라이즈는 AI 애플리케이션의 빌드, 공유 및 배포를 간소화하기 위한 NVIDIA Triton™ 추론 서버, NVIDIA® TensorRT™, NVIDIA TensorRT-LLM 및 기타 도구로 구성된 엔드투엔드 AI 소프트웨어 플랫폼입니다. 엔터프라이즈급 지원, 안정성, 관리 용이성 및 보안을 통해 기업은 예기치 않은 다운타임을 없애고 가치 실현 시간을 단축할 수 있습니다.

NVIDIA Triton 추론 서버

NVIDIA Triton Inference 서버는 모든 GPU 또는 CPU 기반 인프라의 모든 주요 AI 프레임워크에서 AI 모델 배포 및 프로덕션 실행을 표준화하는 데 도움이 되는 오픈 소스 추론 제공 소프트웨어입니다.​

NVIDIA TensorRT

NVIDIA TensorRT는 고성능 딥 러닝 추론을 위한 SDK입니다. 여기에는 추론 애플리케이션에 대해 짧은 대기 시간과 높은 처리량을 제공하는 딥 러닝 추론 최적화 프로그램과 런타임이 포함되어 있습니다. TensorRT는 Triton을 사용하여 배포, 실행 및 확장할 수 있습니다.

NVIDIA TensorRT-LLM

TensorRT-LLM은 프로덕션에서 추론을 위해 LLM(대형 언어 모델)을 정의, 최적화 및 실행하기 위한 오픈 소스 라이브러리입니다. 이는 새로운 모델과 사용자 정의를 신속하게 지원하기 위해 오픈 소스 Python API에서 TensorRT의 Deep Learning Compiler와 결합된 FasterTransformer의 핵심 기능을 유지합니다.

NVIDIA AI 추론 인프라

NVIDIA L4 GPU

L4는 비디오, AI, 비주얼 컴퓨팅, 그래픽, 가상화 등을 위한 보편적이고 에너지 효율적인 가속을 비용 효율적으로 제공합니다. GPU는 CPU 기반 솔루션보다 120배 더 높은 AI 비디오 성능을 제공하므로 기업은 실시간 통찰력을 얻어 콘텐츠를 개인화하고 검색 관련성을 향상시키는 등의 작업을 수행할 수 있습니다.

NVIDIA L40S GPU

NVIDIA의 전체 추론 제공 소프트웨어 스택과 L40S GPU를 결합하면 추론을 위해 준비된 훈련된 모델을 위한 강력한 플랫폼을 제공합니다. 구조적 희소성과 광범위한 정밀도를 지원하는 L40S는 NVIDIA A100 Tensor 코어 GPU의 추론 성능을 최대 1.7배까지 제공합니다.

NVIDIA H100 Tensor 코어 GPU

H100은 NVIDIA의 가속화된 컴퓨팅 데이터 센터 플랫폼에서 차세대 도약을 제공하여 모든 데이터 센터에서 소규모 기업 워크로드부터 엑사스케일 HPC 및 1000조 매개변수 AI에 이르기까지 다양한 워크로드를 안전하게 가속화합니다.

NVIDIA GH200 슈퍼칩

기업에는 가장 큰 모델을 처리하고 추론 인프라의 잠재력을 최대한 활용하기 위한 다목적 시스템이 필요합니다. GH200 Grace Hopper 슈퍼칩은 LLM, 추천자, 벡터 데이터베이스 등을 처리하기 위해 기존 가속 추론 솔루션에 비해 GPU에 7배 이상 빠른 액세스 메모리를 제공하고 CPU 추론 솔루션보다 훨씬 더 많은 FLOPS를 제공합니다.

산업 전반에 걸쳐 AI 추론을 살펴보세요

금융 서비스 사기 예방

American Express는 신용카드 거래에서 대기 시간이 매우 짧은 사기 탐지를 위해 AI를 사용합니다.

자율주행을 위한 추론 가속화

NIO가 NVIDIA Triton을 자율 주행 추론 파이프라인에 통합하여 지연 시간이 짧은 추론 워크플로를 달성한 방법을 알아보세요.

가상 팀 협업 강화

Microsoft Teams는 28개 언어로 매우 정확한 실시간 회의 캡션 및 녹취 서비스를 제공합니다.

음악 분야에서 탁월한 고객 경험 제공

Amazon Music에서 SageMaker와 NVIDIA AI를 함께 사용하여 머신 러닝 트레이닝 및 추론 성능과 비용을 최적화하는 방법을 알아보세요.

광고 게재 속도 향상

Microsoft Bing이 NVIDIA Triton 추론 서버로 광고 전송 속도를 높여 7배의 처리량을 제공하는 방법을 알아보세요.

추가 리소스

최신 뉴스 받기

최신 추론 업데이트 및 공지사항을 읽어보세요.

전문가의 의견을 들어보세요

추론에 대한 GTC 세션을 살펴보고 Triton 추론 서버, Triton 관리 서비스 및 TensorRT를 시작하세요.

기술 블로그 살펴보기

추론을 시작하는 방법에 대한 기술 안내를 읽어보세요.

Ebook을 확인해 보세요

AI 추론의 최신 환경, 기업의 생산 사용 사례, 실제 과제와 솔루션을 알아보세요.

NVIDIA의 최신 AI 추론 소식을 받아보세요.