La A30 introduce straordinarie funzionalità per ottimizzare i carichi di lavoro di inferenza. Accelera una gamma completa di precisioni, dalla FP64 alla TF32 e INT4. Supportando fino a quattro MIG per GPU, A30 consente a più reti di operare contemporaneamente in partizioni hardware sicure con qualità del servizio garantita (QoS). Inoltre, il supporto per la densità strutturale offre prestazioni fino a 2 volte superiori oltre ad altri guadagni in termini di prestazioni in inferenza della A30.
Sui modelli di intelligenza artificiale conversazionale all'avanguardia, la A30 accelera la velocità effettiva di inferenza in tempo reale 3 volte di più rispetto alla GPU NVIDIA V100 Tensor Core di generazione precedente.
Nella classificazione delle immagini in tempo reale (che <richiede una latenza di 7 ms), la A30 accelera la velocità effettiva 7 volte rispetto alla NVIDIA T4.
Le prestazioni IA leader di mercato di NVIDIA sono state dimostrate nel benchmark MLPerf Inference. Con NVIDIA Triton™ Inference Server, che distribuisce l'IA facilmente su larga scala, la A30 porta le prestazioni più all'avanguardia in ogni impresa.
Scopri di più sull'architettura NVIDIA Ampere per l'inferenza ›