AI de Fala

Forneça interfaces baseadas em voz para suas aplicações de AI conversacional.


O que é AI de Fala?

A AI de fala oferece às pessoas a capacidade de conversar com dispositivos, máquinas e computadores para simplificar e aumentar suas vidas. Um subconjunto da AI conversacional, ela inclui o reconhecimento automático de fala (ASR - Automatic Speech Recognition) e a conversão de texto em fala (TTS - Text-To-Speech) para converter a voz humana em texto e gerar uma voz humana a partir de palavras escritas, tornando possíveis tecnologias avançadas, como assistentes virtuais, transcrições em tempo real, pesquisas de voz e sistemas de resposta a perguntas.

As vantagens de usar a AI de Fala.

Precisão superior.

Ofereça experiências de nível excepcional para seus clientes com a melhor precisão possível com a personalização de modelos de AI de fala.

Suporte a vários idiomas.

Amplie sua base de clientes oferecendo aplicações baseadas em voz nos idiomas que seus clientes falam.

Alto desempenho e escalabilidade.

Atenda a mais clientes com aplicações de baixa latência e alta taxa de processamento que podem ser dimensionadas instantaneamente em qualquer infraestrutura: incorporadas, on premise, no cloud ou no edge.

Uma voz natural única para sua marca.

Ofereça um impulso ao seu atendimento ao cliente, fornecendo compromissos rápidos e significativos com a voz única da sua marca.

eBook gratuito: Criando Aplicações de AI de Fala

Saiba como criar e implantar pipelines de AI de fala em tempo real para sua aplicação de AI conversacional.

Como a AI de fala está sendo usada.

Transcreva vários locutores ao mesmo tempo.

Algoritmos modernos de conversão de fala em texto transcrevem reuniões, palestras e conversas sociais ao mesmo tempo em que identificam locutores e marcam suas contribuições. Com as tecnologias de AI de Fala e SDKs da NVIDIA, você pode criar transcrições precisas para conversas de centrais de atendimento e reuniões de videoconferência ou automatizar a observação clínica durante interações entre médicos e pacientes.

Crie assistentes virtuais.

Os assistentes virtuais se comunicam com os usuários por uma interface de fala e auxiliam em várias tarefas, desde resolver problemas de clientes nas centrais de atendimento até ligar a TV como um assistente doméstico inteligente e navegar até o posto de gasolina mais próximo como um assistente inteligente no carro. Use o NVIDIA Omniverse Avatar Cloud Engine (ACE) para integrar as tecnologias de AI de Fala da NVIDIA a componentes baseados em redes neurais profundas e fáceis de usar em suas aplicações interativas de avatar para oferecer interações precisas, rápidas e naturais.

Sua voz com a sua marca.

Com uma voz de marca reconhecível, as empresas podem criar aplicações que construam relações com os clientes e apoiem todos os clientes, incluindo aqueles com déficits de fala e linguagem. Com o NVIDIA Custom Voice, parte da AI de Fala, você pode facilmente criar uma personalidade de voz única e de alta qualidade para sua marca em horas, em vez de semanas, e com apenas 30 minutos de dados de fala gravados.

Desenvolva interfaces personalizáveis de AI de Fala.

Reduza o treinamento usando modelos pré-treinados.

Os sistemas de AI de Fala modernos usam modelos de rede neural profunda (DNN - Deep Neural Network) treinados com grandes conjuntos de dados. Com o tempo, o tamanho dos modelos de AI de fala cresceu tanto que o treinamento deles pode levar semanas de tempo intenso de computação, mesmo usando frameworks de deep learning, como PyTorch, TensorFlow e MXNet em GPUs de alto desempenho.

A AI de Fala da NVIDIA oferece modelos pré-treinados de qualidade de produção no catálogo do NVIDIA NGC™ treinados com vários conjuntos de dados públicos e proprietários por mais de centenas de milhares de horas em sistemas NVIDIA DGX™.

Figura 1: Modelos pré-treinados altamente precisos.

Figura 2: Workflow do Kit de Ferramentas TAO de ponta a ponta.

Personalize modelos para aumentar a precisão.

Muitas empresas precisam personalizar modelos de AI de fala para alcançar a precisão desejada para suas aplicações de conversação específicas. No entanto, personalizar modelos de AI de fala do zero geralmente requer grandes conjuntos de dados de treinamento e experiência em AI.

Para acelerar o desenvolvimento e personalizar significativamente os modelos de fala sem precisar de experiência em AI, você pode usar o Kit de Ferramentas NVIDIA TAO, um kit de ferramentas de desenvolvimento de modelos de AI de baixo código. Ele aplica uma abordagem comprovada de transfer learning a um modelo pré-treinado e ajusta modelos de AI de fala para seu caso de uso. A NVIDIA também oferece o NeMo, um kit de ferramentas de código aberto para pesquisadores criarem modelos de AI de fala de última geração (SOTA - State-Of-The-Art). Modelos otimizados com o NeMo e o Kit de Ferramentas TAO podem ser facilmente exportados e implantados no NVIDIA® Riva on premise ou no cloud como um serviço de fala.

Obtenha interações naturais desenvolvendo habilidades em tempo real.

Para habilidades de AI de fala, as empresas sempre tiveram que escolher entre precisão e desempenho em tempo real. Por exemplo, eles não podem fazer uma pergunta e, em seguida, esperar vários segundos para receber a resposta. Além disso, eles não querem que suas aplicações de AI conversacional interpretem mal ou produzam texto sem sentido.

Com o NVIDIA Riva, as empresas podem alcançar precisão de alto nível e executar seus pipelines de AI de fala em tempo real, em poucos milissegundos. O Riva oferece modelos pré-treinados de SOTA no NGC, ferramentas com baixo código como o Kit de Ferramentas TAO para ajustes finos para alcançar precisão de alto nível e habilidades otimizadas para desempenho em tempo real.

Figura 3:  Recursos de habilidades de AI de fala do NVIDIA Riva.

Explore os últimos avanços em AI de Fala.

A AI de Fala agora é multilíngue.

As aplicações e os pipelines de AI de fala precisam entender vários idiomas, dialetos e sotaques para serem implantados em todo o mundo. Por exemplo, as pessoas nos Estados Unidos e na maioria dos outros países falam diferentes línguas. Em casos de uso como centrais de atendimento, há momentos em que um cliente usa mais de uma idioma para descrever o que está acontecendo. O próximo passo é ter aplicações de AI de fala que possam lidar com essas situações.

Os desenvolvedores podem usar modelos de fala separados para cada idioma ou um único modelo que possa lidar com mais de um idioma. Saiba mais na página Coleções de Reconhecimento de Fala sobre modelos ASR em diferentes idiomas.

Levando a AI de fala do cloud para o dispositivo.

Quando as empresas começaram a usar a AI de fala, todas usavam serviços em cloud por serem fáceis de configurar e usar. Lentamente, as empresas começaram a mudar para soluções on premise para evitar problemas de privacidade com seus dados. Agora, as soluções em dispositivos são o mais recente avanço, não apenas para manter os dados privados, mas também para uma inferência mais rápida e redução de custos. 

O NVIDIA Riva permite que as aplicações sejam implementadas em ambientes integrados, de data center e no cloud para desenvolver interfaces de AI de fala personalizáveis para sua aplicação de AI conversacional.

Acesse recursos educacionais.

Veja uma introdução à AI de fala.

Entenda os conceitos básicos de AI de fala e como criar e implantar aplicações de tecnologia de voz.

Desmistifique a AI conversacional.

Saiba como adicionar a AI de fala a aplicações de AI conversacional e como personalizá-la no tempo de treinamento e inferência.

Pesquise os blogs sobre AI de fala.

Aprenda o que é a AI de fala e como ela mudou ao longo do tempo, sobre seus principais componentes, desafios e casos de uso e sobre os SDKs de AI de Fala da NVIDIA.

Confira o NVIDIA Riva em mais detalhes.

Entenda os principais recursos do NVIDIA Riva que ajudam você a criar serviços de AI de fala.

Inscreva-se para receber as últimas novidades sobre a AI de fala da NVIDIA.