IA de voz

Proporciona interfaces basadas en voz para tus aplicaciones de IA conversacional.


¿Qué es la IA de voz?

La IA de voz ofrece a las personas la capacidad de conversar con dispositivos, máquinas y ordenadores para simplificar y aumentar sus vidas. Se trata de un subconjunto de IA conversacional que incluye reconocimiento de voz automático (ASR) y texto a voz (TTS) para convertir la voz humana en texto y generar una voz humana a partir de palabras escritas, lo que hace posible tecnologías potentes como asistentes virtuales, transcripciones en tiempo real, búsquedas por voz y sistemas de respuesta a preguntas.

Las ventajas de usar la IA de voz.

Precisión de primer nivel.

Convierte las experiencias de tus clientes en excepcionales con la mejor precisión de su clase que se logra con la personalización del modelo de IA de voz.

Soporte para varios idiomas.

Amplía tu base de clientes ofreciendo aplicaciones basadas en voz en los idiomas que hablan tus clientes.

Alto rendimiento y escalabilidad.

Sirve a más clientes con aplicaciones de baja latencia y alto rendimiento que pueden escalar al instante en cualquier infraestructura: en las instalaciones, en la nube, en el perímetro o integrado.

Una voz natural única para tu marca.

Da un impulso a tu servicio de atención al cliente al ofrecer interacciones rápidas y significativas con la voz única de tu marca.

Libro electrónico gratuito: creación de aplicaciones de IA de voz

Aprende a crear e implementar canalizaciones de IA de voz en tiempo real para tu aplicación de IA conversacional.

Cómo se utiliza la IA de voz.

Transcribe a varios oradores a la vez.

Los algoritmos de voz a texto modernos transcriben reuniones, conferencias y conversaciones sociales al mismo tiempo que se identifican los oradores y se etiquetan sus contribuciones. Con las tecnologías IA de voz y los SDK de NVIDIA Riva, puedes crear transcripciones precisas para conversaciones del centro de llamadas y reuniones por videoconferencia o automatizar la toma de notas clínicas durante las interacciones médico-paciente.

Haz que tus asistentes sean virtuales.

Los asistentes virtuales se comunican con los usuarios a través de una interfaz de voz y ayudan con diversas tareas, desde la resolución de problemas de clientes en los centros de llamadas hasta encender el televisor como asistente doméstico inteligente y navegar a la gasolinera más cercana como asistente inteligente integrado en el coche. Aprovecha NVIDIA Omniverse Avatar Cloud Engine (ACE) para integrar las tecnologías de IA de voz de NVIDIA, para componentes fáciles de usar basados en redes neuronales profundas, en tus aplicaciones de avatares interactivos y poder ofrecer interacciones precisas, rápidas y naturales.

Marca tu voz.

Con una voz de marca reconocible, las empresas pueden crear aplicaciones que creen relaciones con los clientes al mismo tiempo que respaldan a todos los clientes, incluidos aquellos con déficit de voz y lenguaje. Con NVIDIA Custom Voice, parte de la IA de voz, puedes crear fácilmente una personalidad de voz única y de alta calidad para tu marca en horas en lugar de semanas y con tan solo 30 minutos de datos de voz grabados.

Desarrolla interfaces de IA de voz personalizables.

Acorta el entrenamiento mediante el uso de modelos entrenados previamente.

Los sistemas de IA de voz modernos utilizan modelos de redes neuronales profundas (DNN) entrenados en conjuntos de datos masivos. Con el tiempo, el tamaño de los modelos de IA de voz ha crecido tanto que el entrenamiento de estos modelos puede llevar semanas de tiempo de computación intensivo, incluso cuando se utilizan entornos de trabajo de deep learning, como PyTorch, TensorFlow y MXNet, en GPU de alto rendimiento.

IA de voz de NVIDIA ofrece modelos entrenados previamente y de calidad de producción en el catálogo de NVIDIA NGC™ que se entrenan en varios conjuntos de datos públicos y patentados durante más de cientos de miles de horas en sistemas NVIDIA DGX™.

Figura 1: Modelos entrenados previamente muy precisos.

Figura 2: Flujo de trabajo completo del kit de herramientas TAO.

Personaliza los modelos para una mayor precisión.

Muchas empresas tienen que personalizar los modelos de IA de voz para lograr la precisión deseada para sus aplicaciones conversacionales específicas. Sin embargo, personalizar los modelos de IA de voz desde cero suele requerir grandes conjuntos de datos de entrenamiento y experiencia en IA.

Para acelerar el desarrollo y personalizar al máximo los modelos de voz sin una experiencia previa de IA, puedes usar el kit de herramientas NVIDIA TAO, un kit de herramientas de desarrollo de modelos de IA de poco código. Aplica un enfoque de aprendizaje de transferencia probado a un modelo entrenado previamente y ajusta los modelos de IA de voz para tu caso de uso. NVIDIA también ofrece NeMo, un kit de herramientas de código abierto para que los investigadores construyan modelos de IA de voz de última generación (SOTA). Los modelos optimizados con NeMo y el kit de herramientas TAO se pueden exportar e implementar fácilmente en NVIDIA® Riva en las instalaciones o en la nube como servicio de voz.

Logra interacciones naturales desarrollando habilidades en tiempo real.

Para las habilidades de IA de voz, las empresas siempre han tenido que elegir entre precisión y rendimiento en tiempo real. Por ejemplo, no pueden hacer una pregunta y, a continuación, esperar varios segundos para obtener una respuesta. Además, no quieren que sus aplicaciones de IA conversacional se malinterpreten o produzcan galimatías.

Con NVIDIA Riva, las empresas pueden lograr una precisión de primer nivel y ejecutar sus canalizaciones de IA de voz en tiempo real, en menos de unos milisegundos. Riva ofrece modelos SOTA entrenados previamente en NGC, herramientas de código bajo como el kit de herramientas TAO para ajustar a fin de lograr una precisión de primer nivel y habilidades optimizadas para un rendimiento en tiempo real.

Figura 3:  Capacidades de habilidades de IA de voz de NVIDIA Riva.

Explora los últimos avances en IA de voz.

La IA de voz se vuelve multilingüe.

Las aplicaciones y canalizaciones de IA de voz deben comprender varios idiomas, dialectos y acentos que se implementarán en todo el mundo. Por ejemplo, las personas en los Estados Unidos y la mayoría de los otros países hablan diferentes idiomas. En casos de uso como los centros de llamadas, hay veces en las que un cliente utiliza más de un idioma para describir lo que está pasando. El siguiente paso es tener aplicaciones de IA de voz  que puedan manejar estas situaciones.

Los desarrolladores pueden usar modelos de voz independientes para cada idioma o un solo modelo que pueda manejar más de un idioma. Obtén más información en la página Colecciones de reconocimiento de voz sobre modelos ASR en diferentes idiomas.

Llevar la IA de voz de la nube al dispositivo.

Cuando las empresas empezaron a usar la IA de voz, todo el mundo usaba los servicios en la nube porque son fáciles de configurar y usar. Poco a poco, las empresas comenzaron a cambiar a soluciones locales para evitar problemas de privacidad con sus datos. Ahora, las soluciones en el dispositivo son el último avance, no solo para mantener los datos privados, sino también para una inferencia más rápida y reducir costes. 

NVIDIA Riva permite que las aplicaciones se implementen en entornos integrados, de centro de datos y en la nube para desarrollar interfaces de IA de voz personalizables para tu aplicación de IA conversacional.

Accede a recursos educativos.

Presentamos la IA de habla

Comprende los conceptos principales de la IA de voz y cómo crear e implementar aplicaciones de tecnología de voz.

Desmitificar la IA conversacional.

Aprende a añadir IA de voz a aplicaciones de IA conversacional y a personalizarla en el tiempo de entrenamiento e inferencia.

Explora los blogs de IA de voz.

Descubre qué es la IA de voz, cómo ha cambiado a lo largo del tiempo, sobre sus componentes clave, desafíos y casos de uso, y sobre los SDK de IA de voz de NVIDIA.

Echa un vistazo más cerca a NVIDIA Riva.

Comprende las características clave de NVIDIA Riva que te pueden ayudar a crear servicios de IA de voz.

Regístrate para recibir las últimas noticias de NVIDIA sobre IA de habla.