NVIDIA EGX™ Platform abilita la conversazione in tempo reale, evitando la latenza di rete, elaborando elevati volumi di dati vocali e linguistici sui dispositivi periferici. Con NVIDIA TensorRT™, gli sviluppatori possono ottimizzare i modelli di inferenza e offrire applicazioni di IA conversazionale con bassa latenza e throughput elevato. Con NVIDIA Triton™ Inference Server, i modelli possono essere distribuiti in produzione. TensorRT e Triton Inference Server funzionano con NVIDIA Jarvis, un framework applicativo per l'IA conversazionale, per la creazione e la distribuzione di pipeline multimodali complete e accelerate da GPU su EGX. Al livello sottostante, Jarvis applica TensorRT, configura Triton Inference Server ed espone i servizi tramite un'API standard, distribuendo con un singolo comando tramite i grafici Helm su un cluster Kubernetes.