Soluzioni di inferenza IA

Piattaforma di inferenza NVIDIA

Alimentare le fabbriche IA più performanti, efficienti e redditizie.

Inizia

Leggi la serie | Benchmark delle prestazioni | Per gli sviluppatori

Panoramica
Prestazioni
Vantaggi
Piattaforma
Testimonianze dei clienti
Risorse
Prossimi passi

Panoramica
Prestazioni
Vantaggi
Piattaforma
Testimonianze dei clienti
Risorse
Prossimi passi

Inizia

Panoramica

Come scalare l'inferenza IA in modo redditizio?

L'inferenza dell'IA, ovvero il modo in cui sperimentiamo l'IA attraverso chatbot, copiloti e strumenti creativi, sta crescendo a un doppio ritmo esponenziale. L'adozione da parte degli utenti sta accelerando mentre i token IA generati per interazione, basati su flussi di lavoro agentici, ragionamento a lungo termine e modelli mixture-of-experts (MoE), aumentano in parallelo.

Per consentire l'inferenza su questa scala massiccia, NVIDIA offre un'architettura su larga scala per i data center annualmente. La nostra co-progettazione estrema di hardware e software offre degli aumenti notevoli in termini di prestazioni e riduce il costo per token, risultando in esperienze di IA avanzata economicamente fattibili su larga scala.

NVIDIA GB300 NVL72 offre 50 volte più token per watt e un costo dei token 35 volte inferiore rispetto a Hopper™, massimizzando i ricavi a parità di budget energetico e aumentando i margini di profitto. Le continue ottimizzazioni del software estraggono le massime prestazioni a livello di chip, rack e data center, migliorando ulteriormente il ritorno sull'investimento nel lungo termine.

NVIDIA Vera Rubin apre la nuova frontiera dell'IA

La piattaforma NVIDIA Vera Rubin è composta da sette nuovi chip ora in piena produzione per scalare le fabbriche IA più grandi al mondo.

Leggi il blog

I principali fornitori di inferenza riducono i costi dell'IA fino a 10 volte con i modelli open source su NVIDIA Blackwell

Baseten, Deep Infra, Fireworks AI e Together AI stanno riducendo i costi per token in tutti i settori con stack di inferenza ottimizzati in esecuzione sulla piattaforma NVIDIA Blackwell.

Leggi il blog

Le prestazioni di inferenza riducono i costi dei token

Fai clic per ingrandire l'immagine

I risultati di DeepSeek-R1 8K/1K mostrano un vantaggio in termini di benefici prestazionali e un'opportunità di fatturato 15 volte superiore per NVIDIA Blackwell GB200 NVL72 rispetto a Hopper H200.

Vantaggi

Le massime prestazioni massimizzano i ricavi

Grazie a una coprogettazione estrema di hardware e software, NVIDIA GB300 NVL72 offre un numero di token per watt 50 volte superiore rispetto a Hopper, massimizzando i ricavi delle fabbriche IA a parità di budget energetico. Le continue ottimizzazioni del software estraggono le massime prestazioni a livello di chip, rack e data center, migliorando ulteriormente il ritorno sull'investimento nel lungo termine.

Il costo inferiore dei token aumenta i margini di profitto

Il sistema NVIDIA GB300 NVL72 offre un costo per token 35 volte inferiore rispetto alla piattaforma NVIDIA Hopper, aumentando i margini di profitto delle fabbriche IA. Con ogni generazione, i miglioramenti delle prestazioni superano di gran lunga i costi dell'infrastruttura, creando una migliore economia per consentire esperienze IA avanzate su larga scala.

Lo stack completo ottimizza ogni modello e caso d'uso

NVIDIA supporta ogni modello di IA generativa, ML tradizionale, calcolo scientifico, biologia e IA fisica. Dalle applicazioni in tempo reale sensibili alla latenza all'elaborazione in batch ad alto throughput, NVIDIA offre le migliori prestazioni per ogni caso d'uso. La piattaforma offre la massima flessibilità e programmabilità per scegliere la configurazione ottimale per il carico di lavoro e i requisiti aziendali in continua evoluzione.

L'integrazione nativa accelera la distribuzione

I software NVIDIA pronti per la produzione, tra cui Dynamo e TensorRT™ LLM, e l'integrazione nativa con i principali framework come PyTorch, vLLM, SGLang e llm-d, offrono lo stack di inferenza IA più robusto. Con la rapida evoluzione delle architetture dei modelli e delle tecniche di inferenza, lo stack NVIDIA garantisce il percorso più rapido dall'innovazione alla produzione.

Piattaforma

Coprogettazione hardware-software estrema

Un hardware potente senza un'orchestrazione intelligente spreca il potenziale; un software eccellente senza hardware veloce significa prestazioni di inferenza lente. La piattaforma di inferenza NVIDIA offre una soluzione completa e continuamente ottimizzata con calcolo, rete, storage e software co-progettati per consentire le massime prestazioni su diversi carichi di lavoro.

Scopri alcune delle principali innovazioni hardware e software NVIDIA.

NVIDIA Vera Rubin NVL72

La piattaforma NVIDIA Vera Rubin offre prestazioni per watt 10 volte migliori e un costo per token 10 volte inferiore rispetto a Blackwell. Attraverso una co-progettazione estrema, la piattaforma abbina le GPU Rubin per un pre-riempimento di contesto massiccio con LPX per una decodifica rapida, senza compromessi tra velocità e scalabilità.

Scopri sette nuovi chip, un supercomputer IA

NVIDIA Grace Blackwell Ultra NVL72

GB300 NVL72 presenta 72 GPU B300 connesse con NVLink™ da 130 TB/s, in modo che poter comunicare facilmente tra loro e sbloccare modelli mixture-of-experts su larga scala.

Scopri prestazioni di ragionamento IA superiori su GB200 NVL72

NVIDIA Dynamo

NVIDIA Dynamo è un framework open source distribuito di inferenza per distribuire modelli in ambienti multi-nodo su larga scala da fabbriche IA. Semplifica il servizio distribuito disaggregando l'inferenza, ottimizzando il routing ed estendendo la memoria attraverso il caching dei dati a livelli di storage convenienti.

Distribuisci facilmente su più nodi con Dynamo

TensorRT LLM

TensorRT LLM è una libreria open source per l'inferenza LLM ad alte prestazioni e in tempo reale continuamente ottimizzata sulle GPU NVIDIA. Con un runtime Python modulare, un sistema nativo PyTorch per l'autore e un'API di produzione stabile, è ottimizzato per massimizzare il throughput, ridurre al minimo i costi e offrire esperienze utente rapide.

Ottimizza l'inferenza con TensorRT LLM

Decodificare le prestazioni di Paretos

Ti sei mai chiesto come i complessi compromessi dell'IA si traducono in risultati del mondo reale? Scopri diversi punti lungo le curve di prestazioni qui sotto per vedere in prima persona come la progettazione hardware e software estrema rende NVIDIA Blackwell Ultra la scelta più performante, efficiente e redditizia.

TPS / user

–

TPS / MW

–

Simulated Chat Experience

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con disaggregazione Dynamo FP4. H100 con batching in volo FP8. Prestazioni previste soggette a modifiche.

Ti stai chiedendo come ogni configurazione si traduce in esperienze utente reali? Scopri le curve da solo o assistito da TJ, facendo clic su "Scopri con TJ" e guardale prendere vita nella chat simulata a destra.

Scopri di più con NVIDIA Dynamo AI Configurator

Testimonianze dei clienti

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Altre storie dei clienti

Amdocs

Accelerate Generative AI Performance and Lower Costs

Read how Amdocs built amAIz, a domain-specific generative AI platform for telcos, using NVIDIA DGX™ Cloud and NVIDIA NIM inference microservices to improve latency, boost accuracy, and reduce costs.

Read Case Study

Snapchat

Enhancing Apparel Shopping With AI

Learn how Snapchat enhanced the clothes shopping experience and emoji-aware optical character recognition using Triton Inference Server to scale, reduce costs, and accelerate time to production.

Read Case Study

Amazon

Accelerate Customer Satisfaction

Discover how Amazon improved customer satisfaction by accelerating their inference 5X faster with TensorRT.

Read Case Study

Risorse

Le ultime novità in risorse di inferenza IA

Blog
Sessioni
Formazione
Video

Visualizza altre sessioni

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Hai un progetto IA esistente? Fai domanda per ottenere esperienza pratica di test e prototipazione delle tue soluzioni di IA.

Candidati ora

Scopri i percorsi di apprendimento di IA generativa e LLM

Migliora le tue competenze tecniche nell'IA generativa e nei modelli linguistici di grandi dimensioni con i nostri percorsi di apprendimento completi.

Esplora ora

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Accelera gratuitamente il tuo percorso di IA generativa con l'accesso immediato e a breve termine ai microservizi di inferenza NVIDIA NIM e ai modelli di IA.

Inizia

Visualizza più corsi di formazione

Implementazione dell'IA generativa in produzione con NVIDIA NIM

Sfrutta il potenziale dell'IA generativa con NVIDIA NIM. Questo video spiega come i microservizi NVIDIA NIM possono trasformare la distribuzione dell'IA in una potenza pronta alla produzione.

Guarda il video (01:55)

5 motivi per cui Triton semplifica l'inferenza

Triton Inference Server semplifica la distribuzione di modelli di intelligenza artificiale su larga scala in ambienti di produzione. Il software di inferenza open source consente ai team di distribuire modelli IA addestrati da qualsiasi framework, da una piattaforma di storage locale o cloud, su qualsiasi infrastruttura basata su GPU o CPU.

Guarda il video (01:59)

UneeQ

NVIDIA svela i NIM

Ti sei mai chiesto di cosa sia capace di fare la tecnologia NIM di NVIDIA? Immergiti nel mondo incredibile degli umani e dei robot digitali per scoprire cosa il NIM rende possibile.

Guarda il video (13:42)

Visualizza altri video

Prossimi passi

È tutto pronto per iniziare?

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare la tua applicazione IA, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

Inizia a sviluppare Inizia a creare

Trova l'hardware giusto per i tuoi carichi di lavoro di inferenza

Le soluzioni NVIDIA per data center sono disponibili tramite partner selezionati NVIDIA Partner Network (NPN). Scopri le opzioni flessibili e convenienti per accedere alle più recenti tecnologie NVIDIA per i data center presso la nostra rete di partner.

Esplora NVIDIA Marketplace

Ricevi le ultime notizie su NVIDIA AI Inference

Iscriviti per ricevere notizie e aggiornamenti sull'inferenza IA e altro da NVIDIA.

Ricevi gli ultimi aggiornamenti

Piattaforma di inferenza NVIDIA

Come scalare l'inferenza IA in modo redditizio?

NVIDIA Vera Rubin apre la nuova frontiera dell'IA

I principali fornitori di inferenza riducono i costi dell'IA fino a 10 volte con i modelli open source su NVIDIA Blackwell

Le prestazioni di inferenza riducono i costi dei token

Le massime prestazioni massimizzano i ricavi

Il costo inferiore dei token aumenta i margini di profitto

Lo stack completo ottimizza ogni modello e caso d'uso

L'integrazione nativa accelera la distribuzione

Coprogettazione hardware-software estrema

NVIDIA Vera Rubin NVL72

NVIDIA Grace Blackwell Ultra NVL72

NVIDIA Dynamo

TensorRT LLM

Decodificare le prestazioni di Paretos

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Accelerate Generative AI Performance and Lower Costs

Enhancing Apparel Shopping With AI

Accelerate Customer Satisfaction

Le ultime novità in risorse di inferenza IA

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Scopri i percorsi di apprendimento di IA generativa e LLM

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Implementazione dell'IA generativa in produzione con NVIDIA NIM

5 motivi per cui Triton semplifica l'inferenza

NVIDIA svela i NIM

È tutto pronto per iniziare?

Trova l'hardware giusto per i tuoi carichi di lavoro di inferenza

Ricevi le ultime notizie su NVIDIA AI Inference

Ricevi le ultime notizie di NVIDIA sull'interferenza IA