인터랙티브 대화식 AI는 지능적이고 인간과 비슷한 소리를 내야 하며 지연 시간이 300ms 미만이어야 합니다. 여기에는 모델, 컴퓨팅, 네트워킹, 스토리지 모두에 대한 데이터센터 전반적 최적화가 필요합니다. 엔드 투 엔드 대화식 AI 벤치마크인 SpeechSquad에서는 Jarvis 프레임워크가 300ms 미만의 지연 시간으로 최고의 딥 러닝 모델을 실행합니다. 반면 CPU는 더 간단한 모델을 실행하는 경우에도 600ms의 지연 시간을 보입니다. GPU를 사용하면 1/3의 비용으로 지능을 가진 인간과 같은 목소리를 구현할 수 있습니다.