Soluzioni di inferenza IA

Piattaforma di inferenza NVIDIA

Alimentare le fabbriche IA più performanti, efficienti e redditizie.

Inizia

Leggi la serie | Benchmark delle prestazioni | Per gli sviluppatori

Panoramica
Prestazioni
Vantaggi
ROI
Piattaforma
Testimonianze dei clienti
Risorse
Prossimi passi

Panoramica
Prestazioni
Vantaggi
ROI
Piattaforma
Testimonianze dei clienti
Risorse
Prossimi passi

Inizia

Panoramica

Qual è il modo intelligente per scalare l'IA al costo più basso?

L'inferenza dell'IA, ovvero il modo in cui sperimentiamo l'IA attraverso chatbot, copiloti e strumenti creativi, sta crescendo a un doppio ritmo esponenziale. L'adozione da parte degli utenti sta accelerando, mentre i token IA generati per interazione, basati su flussi di lavoro per agenti, ragionamento a lungo termine e modelli a combinazione di esperti (MoE), aumentano in parallelo.

Per consentire l'inferenza su questa scala massiccia, NVIDIA offre un'architettura su larga scala per i data center annualmente. La nostra progettazione estrema di hardware e software offre salti di qualità nelle prestazioni, riduce il costo per token e genera maggiori ricavi e profitti.

NVIDIA Blackwell NVL72 offre prestazioni di inferenza più di 10 volte migliori rispetto a NVIDIA H200 in una vasta gamma di modelli MoE, tra cui Kimi K2 Thinking, DeepSeek-R1 e Mistral Large 3.

Extreme Codesign offre 1/10 del costo con NVLink per modelli a combinazione di esperti (MoE)

Processando un numero di token dieci volte superiore con lo stesso tempo e lo stesso livello di energia, il costo per token si riduce notevolmente, consentendo ai MoE di essere distribuiti nei prodotti di uso quotidiano. È così che l'intelligenza di frontiera diventa mainstream.

Leggi il blog

NVIDIA Blackwell stabilisce lo standard per il ROI dell'inferenza

NVIDIA Blackwell ha superato i nuovi benchmark SemiAnalysis InferenceMAX™ v1, ottenendo le più alte prestazioni di inferenza IA e la migliore efficienza complessiva. NVIDIA Blackwell consente di ottenere i più alti ricavi per le fabbriche IA: un investimento di 5 milioni di dollari in GB200 NVL72 genera 75 milioni di dollari di ricavi token, un ritorno sull'investimento 15 volte superiore.

Scopri i risultati chiave

NVIDIA Blackwell NVL72 per il costo più basso per singolo token

NVIDIA Blackwell consente di ottenere il più alto fatturato per le fabbriche IA, con un ROI fino a 15 volte superiore. Ciò è il risultato dell'estrema progettazione congiunta tra NVIDIA Blackwell, NVLink™ e NVLink Switch per la scalabilità, NVFP4 per la precisione a bassa latenza e NVIDIA Dynamo e TensorRT™ LLM per la velocità e la flessibilità, nonché lo sviluppo con i framework della community SGLang, vLLM e molto altro ancora.

Un investimento di 5 milioni di dollari GB200 NVL72 può generare 75 milioni di dollari di ricavi in token

Fai clic per ingrandire l'immagine

I risultati di DeepSeek-R1 8K/1K mostrano un vantaggio in termini di benefici prestazionali e un'opportunità di fatturato 15 volte superiore per NVIDIA Blackwell GB200 NVL72 rispetto a Hopper H200.

Vantaggi

Scopri il vantaggio Think SMART

La piattaforma di inferenza NVIDIA offre una serie di vantaggi racchiusi nel framework Think SMART, tra cui scalabilità ed efficienza, prestazioni multidimensionali, architettura e coprogettazione software, ROI basato sulle prestazioni e un ampio ecosistema tecnologico.

Massimizza le prestazioni

NVIDIA Blackwell offre prestazioni leader del settore in diversi casi d'uso, bilanciando efficacemente più dimensioni: throughput, latenza, intelligenza, costi ed efficienza energetica. Per i modelli intelligenti mixture-of-experts come Kimi K2 Thinking, DeepSeek-R1 e Mistral Large 3, gli utenti possono ottenere prestazioni fino a 10 volte più veloci su NVIDIA Blackwell NVL72 rispetto a H200.

Costi inferiori per token

NVIDIA Blackwell NVL72 offre 1/10 del costo per token per i modelli MoE. Le prestazioni rappresentano la leva più grande per ridurre i costi per token e massimizzare le entrate IA. Processando un numero di token dieci volte superiore con lo stesso tempo e lo stesso livello di energia, il costo per token si riduce notevolmente, consentendo ai MoE di essere distribuiti nei prodotti di uso quotidiano.

Scalare in modo efficiente

Grazie a un'innovazione completa nel calcolo, nella rete di networking e nel software, NVIDIA consente di scalare in modo efficiente distribuzioni IA complesse.

Integrare facilmente

NVIDIA offre una piattaforma collaudata con una base installata di centinaia di milioni di GPU CUDA®, 7 milioni di sviluppatori, contributi a oltre 1.000+ progetti open-source e integrazioni profonde con framework come PyTorch, JAX, SGLang, vLLM e molto altro ancora

ROI

Le prestazioni aumentano la redditività

Più velocemente il sistema è in grado di generare token, offrendo al contempo un'esperienza utente fluida, maggiori saranno le entrate che potrai ottenere con la stessa potenza e costi. NVIDIA Blackwell genera 75 milioni di dollari di fatturato per ogni 5 milioni di dollari di CAPEX spesi, un ritorno sull'investimento di 15x.

Scopri di più

Piattaforma

Coprogettazione hardware-software estrema

Un hardware potente senza un'orchestrazione intelligente spreca il potenziale; un software eccellente senza hardware veloce significa prestazioni di inferenza lente. L'innovazione completa di NVIDIA nei settori di calcolo, rete e software consente le massime prestazioni su diversi carichi di lavoro. Scopri alcune delle principali innovazioni hardware e software NVIDIA.

NVIDIA Grace Blackwell NVL72

Con 1,4 exaFLOPS in un singolo rack, NVIDIA GB200 NVL72 riunisce 72 GPU NVIDIA Blackwell con NVIDIA NVLink™ e NVSwitch™ per distribuire modelli di ragionamento su larga scala, riducendo i costi dei token di 1/10

Scopri di più su GB200 NVL72

NVIDIA Blackwell

NVIDIA HGX™ B200, basata sull'architettura NVIDIA Blackwell, è dotata di 8 GPU NVIDIA Blackwell connesse da NVSwitch ultra veloce. Offre prestazioni di inferenza IA elevate e un'efficienza energetica per l'inferenza IA su larga scala.

Scopri di più sulla piattaforma NVIDIA B200 HGX

NVIDIA Dynamo

NVIDIA Dynamo è un framework distribuito di inferenza per distribuire modelli in ambienti multi-nodo su larga scala da fabbriche IA. Semplifica il servizio distribuito disaggregando l'inferenza, ottimizzando il routing ed estendendo la memoria attraverso il caching dei dati a livelli di storage convenienti.

Scopri di più su NVIDIA Dynamo

TensorRT LLM

TensorRT™-LLM è una libreria open source per l'inferenza LLM ad alte prestazioni e in tempo reale su GPU NVIDIA. Con un runtime Python modulare, un sistema nativo PyTorch per l'autore e un'API di produzione stabile, è ottimizzato per massimizzare il throughput, ridurre al minimo i costi e offrire esperienze utente rapide.

Scopri di più su TensorRT-LLM

Hardware

Scopri la nostra infrastruttura di inferenza IA

Ottieni prestazioni di IA senza pari con il software di inferenza NVIDIA AI ottimizzato per l'infrastruttura accelerata da NVIDIA. Le tecnologie NVIDIA Blackwell Ultra, H200 GPU, NVIDIA RTX PRO™ 6000 Blackwell Server Edition e NVIDIA RTX™ offrono velocità ed efficienza eccezionali per i carichi di lavoro di inferenza IA in data center, cloud e workstation.

NVIDIA GB300 NVL72

La domanda di inferenza IA è in aumento e NVIDIA Blackwell Ultra è progettata per rispondere a questa esigenza. Offrendo 1,4 exaFLOPS in un singolo rack, NVIDIA GB300 NVL72 unifica 72 GPU NVIDIA Blackwell Ultra con NVIDIA NVLink™ e NVFP4 per alimentare modelli di grandi dimensioni con estrema efficienza, ottenendo un output della fabbrica IA 50 volte superiore, riducendo al contempo i costi dei token e accelerando il ragionamento in tempo reale su scala.

Scopri di più su GB300 NVL72

GPU NVIDIA H200

La GPU NVIDIA H200, parte della piattaforma NVIDIA Hopper, potenzia i carichi di lavoro dell'IA generativa e del calcolo ad alte prestazioni (HPC) con prestazioni e memoria rivoluzionarie. Come prima GPU con HBM3e, la memoria più grande e veloce dell’H200 alimenta l’accelerazione dell’IA generativa e dei modelli di linguaggio di grandi dimensioni (LLM), mentre fa progredire il calcolo scientifico per i carichi di lavoro HPC.

Scopri di più su H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

La GPU RTX PRO 6000 Blackwell Server Edition offre prestazioni di inferenza potenziate in una vasta gamma di modelli di IA, ottenendo prestazioni fino a 5 volte superiori per applicazioni di IA per agenti e generativa su scala aziendale rispetto a NVIDIA L40S della generazione precedente. I server NVIDIA RTX PRO™, disponibili presso i partner di sistema globali, portano le prestazioni e l'efficienza dell'architettura Blackwell in ogni data center aziendale.

Scopri di più su RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

La RTX PRO 6000 Blackwell Workstation Edition è la prima GPU desktop a offrire 96 GB di memoria GPU. La potenza dell'architettura GPU Blackwell, combinata con la memoria GPU di grandi dimensioni e lo stack software NVIDIA AI, consente alle workstation basate su RTX PRO di offrire un'incredibile accelerazione per l'IA generativa e l'inferenza LLM direttamente sul desktop.

Scopri di più su RTX PRO 6000 Blackwell Workstation Edition

Decodificare le prestazioni di Paretos

Ti sei mai chiesto come i complessi compromessi dell'IA si traducono in risultati del mondo reale? Scopri diversi punti lungo le curve di prestazioni qui sotto per vedere in prima persona come la progettazione hardware e software estrema rende NVIDIA Blackwell Ultra la scelta più performante, efficiente e redditizia.

TPS / utente

–

TPS / MW

–

Esperienza di chat simulata

DeepSeek R1 ISL = 32K, OSL = 8K, GB300 NVL72 con disaggregazione Dynamo FP4. H100 con batching in volo FP8. Prestazioni previste soggette a modifiche.

Ti stai chiedendo come ogni configurazione si traduce in esperienze utente reali? Scopri le curve da solo o assistito da TJ, facendo clic su "Scopri con TJ" e guardale prendere vita nella chat simulata a destra.

Scopri di più con NVIDIA Dynamo AI Configurator

Testimonianze dei clienti

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Altre storie dei clienti

Amdocs

Accelerare le prestazioni dell'IA generativa e ridurre i costi

Leggi come Amdocs ha creato amAIz, una piattaforma di intelligenza artificiale generativa specifica per il dominio per le aziende di telecomunicazioni, utilizzando i microservizi di inferenza NVIDIA DGX™ Cloud e NVIDIA NIM per migliorare la latenza, aumentare la precisione e ridurre i costi.

Leggi il caso di studio

Snapchat

Migliorare lo shopping con l'IA

Scopri come Snapchat ha migliorato l'esperienza di acquisto di abbigliamento e il riconoscimento ottico dei caratteri con emoji utilizzando Triton Inference Server per scalare, ridurre i costi e accelerare i tempi di produzione.

Leggi il caso di studio

Amazon

Accelerare la soddisfazione del cliente

Scopri come Amazon ha migliorato la soddisfazione dei clienti accelerando la loro inferenza 5 volte più velocemente con TensorRT.

Leggi il caso di studio

Risorse

Le ultime novità in risorse di inferenza IA

Blog
Sessioni
Formazione
Video

Visualizza altre sessioni

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Hai un progetto IA esistente? Fai domanda per ottenere esperienza pratica di test e prototipazione delle tue soluzioni di IA.

Candidati ora

Scopri i percorsi di apprendimento di IA generativa e LLM

Migliora le tue competenze tecniche nell'IA generativa e nei modelli linguistici di grandi dimensioni con i nostri percorsi di apprendimento completi.

Esplora ora

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Accelera gratuitamente il tuo percorso di IA generativa con l'accesso immediato e a breve termine ai microservizi di inferenza NVIDIA NIM e ai modelli di IA.

Inizia

Visualizza più corsi di formazione

Visualizza altri video

Prossimi passi

Pronti per poter iniziare?

Scopri tutto ciò di cui hai bisogno per iniziare a sviluppare la tua applicazione IA, tra cui la documentazione più recente, i tutorial, i blog tecnici e molto altro.

Inizia a sviluppare Inizia a creare

Trova l'hardware giusto per i tuoi carichi di lavoro di inferenza

Le soluzioni NVIDIA per data center sono disponibili tramite partner selezionati NVIDIA Partner Network (NPN). Scopri le opzioni flessibili e convenienti per accedere alle più recenti tecnologie NVIDIA per i data center presso la nostra rete di partner.

Esplora NVIDIA Marketplace

Ricevi le ultime notizie su NVIDIA AI Inference

Iscriviti per ricevere notizie e aggiornamenti sull'inferenza IA e altro da NVIDIA.

Ricevi gli ultimi aggiornamenti

TPS / utente

–

TPS / MW

–

Esperienza di chat simulata

Piattaforma di inferenza NVIDIA

Panoramica

Qual è il modo intelligente per scalare l'IA al costo più basso?

Extreme Codesign offre 1/10 del costo con NVLink per modelli a combinazione di esperti (MoE)

NVIDIA Blackwell stabilisce lo standard per il ROI dell'inferenza

NVIDIA Blackwell NVL72 per il costo più basso per singolo token

Un investimento di 5 milioni di dollari GB200 NVL72 può generare 75 milioni di dollari di ricavi in token

Vantaggi

Scopri il vantaggio Think SMART

Massimizza le prestazioni

Costi inferiori per token

Scalare in modo efficiente

Integrare facilmente

ROI

Piattaforma

Coprogettazione hardware-software estrema

NVIDIA Grace Blackwell NVL72

NVIDIA Blackwell

NVIDIA Dynamo

TensorRT LLM

Hardware

Scopri la nostra infrastruttura di inferenza IA

NVIDIA GB300 NVL72

GPU NVIDIA H200

NVIDIA RTX PRO 6000 Blackwell Server Edition

NVIDIA RTX PRO 6000 Blackwell Workstation Edition

Decodificare le prestazioni di Paretos

Testimonianze dei clienti

Come i leader del settore stanno guidando l'innovazione con l'inferenza IA

Accelerare le prestazioni dell'IA generativa e ridurre i costi

Migliorare lo shopping con l'IA

Accelerare la soddisfazione del cliente

Risorse

Le ultime novità in risorse di inferenza IA

Inizia a utilizzare l'inferenza su NVIDIA LaunchPad

Scopri i percorsi di apprendimento di IA generativa e LLM

Inizia a utilizzare l'inferenza generativa dell'IA su NVIDIA LaunchPad

Prossimi passi

Pronti per poter iniziare?

Trova l'hardware giusto per i tuoi carichi di lavoro di inferenza

Ricevi le ultime notizie su NVIDIA AI Inference

Ricevi le ultime notizie di NVIDIA sull'interferenza IA