Os serviços baseados na AI em fala, visão e linguagem apresentam um caminho revolucionário para uma conversa natural personalizada, mas enfrentam requisitos rígidos de precisão e latência para interatividade em tempo real. Com o SDK de AI conversacional da NVIDIA, os desenvolvedores podem construir e implantar rapidamente serviços de AI multimodais de última geração para alimentar aplicações em uma única arquitetura unificada, oferecendo sistemas altamente precisos e de baixa latência com pouco investimento inicial.
Aproveite os modelos de AI conversacional do NGC™ que são treinados em vários conjuntos de dados abertos e proprietários por mais de 100.000 horas em sistemas NVIDIA DGX™.
Personalize as habilidades de fala, linguagem e visão em seu domínio usando o Kit de Ferramentas de Transfer Learning.
Implante modelos otimizados no cloud, no data center e no edge com um único comando.
Acelere na escala do pipeline e execute a inferência do modelo bem abaixo do limite de latência de 300 milissegundos (ms).
Execute pipelines de AI de conversação completos que consistem em reconhecimento automático de fala (ASR) para transcrição de áudio, compreensão de linguagem natural (NLU) e texto para fala (TTS) bem abaixo do limite de latência de 300ms para interações em tempo real, liberando espaço para aumentar a complexidade do pipeline sem sacrificar a experiência do usuário.
A GPU NVIDIA A100 Tensor Core apresentou desempenho recorde no benchmark MLPerf Training v0.7, com clock de 6,53 horas por acelerador para BERT no WikiText e 0,83 minutos em escala.
Acelere o tempo de desenvolvimento em 10 vezes usando modelos pré-treinados da NVIDIA com qualidade de produção e o Kit de Ferramentas de Transfer Learning.
Acelere o tempo de solução aprendendo poderosos modelos de linguagem de bilhões de parâmetros com velocidade e escalabilidade incomparáveis.
Implante serviços de AI de conversação otimizados para desempenho máximo no cloud, no data center e no edge.
Habilite conversação em tempo real, evitando a latência da rede, processando voz em alto volume e dados de idioma no edge.
A NVIDIA DGX™ A100 apresenta oito GPUs NVIDIA A100 Tensor Core, o mais avançado acelerador de data center já feito. A precisão do Tensor Float 32 (TF32) oferece uma melhoria de desempenho de AI de 20 vezes em relação às gerações anteriores, sem qualquer alteração de código, e um aumento de desempenho adicional de 2 vezes ao aproveitar a dispersão estrutural em modelos de PNL comuns. O NVIDIA® NVLink® de terceira geração, o NVIDIA NVSwitch™ de segunda geração e a NVIDIA Mellanox® InfiniBand permitem conexões de largura de banda ultra-alta e baixa latência entre todas as GPUs. Isso permite que vários sistemas DGX A100 treinem modelos massivos de bilhões de parâmetros em escala para fornecer precisão de última geração. E com o NVIDIA NeMo™, um kit de ferramentas de código aberto, os desenvolvedores podem construir, treinar e ajustar modelos de AI de conversação acelerados por DGX com apenas algumas linhas de código.
A Plataforma NVIDIA EGX™ possibilita a condução da AI de conversação em tempo real, evitando a latência da rede, processando alto volume de voz e dados de idioma no edge. Com o NVIDIA TensorRT™, os desenvolvedores podem otimizar modelos para inferência e fornecer aplicações de AI de conversação com baixa latência e alto rendimento. Com o servidor de inferência NVIDIA Triton™, os modelos podem ser implantados na produção. O TensorRT e o Servidor de Inferência Triton trabalham com o NVIDIA Riva, um framework de aplicação para AI de conversação, para construir e implantar pipelines multimodais acelerados por GPU de ponta a ponta no EGX. Nos bastidores, o Riva utiliza o TensorRT, configura o Servidor de Inferência Triton e expõe serviços por meio de uma API padrão, implantando com um único comando por meio de gráficos Helm em um cluster Kubernetes.
Os algoritmos clássicos de fala para texto evoluíram, tornando agora possível transcrever reuniões, palestras e conversas sociais ao mesmo tempo em que identifica os palestrantes e rotula suas contribuições. O NVIDIA Riva permite a fusão de dados de áudio e visão multissensor em um único fluxo de informações usado para componentes de transcrição avançados, como a diarização visual necessária para diferenciar várias vozes em tempo real.
Os assistentes virtuais podem interagir com os clientes de uma forma quase humana, potencializando as interações em centros de contato, alto-falantes inteligentes e assistentes inteligentes no carro. Serviços baseados em AI, como reconhecimento de fala, compreensão de linguagem, síntese de voz e codificação de voz, por si só, não podem suportar tal sistema, pois estão faltando componentes importantes, como rastreamento de diálogo. O Riva complementa esses serviços de bastidores com componentes fáceis de usar que podem ser estendidos para qualquer aplicação.
Acelere os principais workflows de fala, visão e linguagem por GPU para atender aos requisitos de escala corporativa.
Crie modelos de deep learning de última geração e acelerados por GPU com bibliotecas populares de AI conversacional.
Usando o processamento de linguagem natural, a plataforma da Cureai permite que os pacientes compartilhem suas condições com seus médicos, acessem seus próprios registros médicos e ajuda os provedores a extrair dados de conversas médicas para informar melhor o tratamento.
Saiba mais sobre o Square Assistant, um mecanismo de AI de conversação que capacita as pequenas empresas a se comunicarem com seus clientes de maneira mais eficiente.
Descubra como deve ser a jornada corporativa para uma implementação bem-sucedida e como habilitar seus negócios por meio do ROI.
Stay tuned for data science news and content, delivered straight to your inbox.
Autorizo o envio das últimas notícias corporativas, anúncios e muito mais da NVIDIA. Posso cancelar a assinatura a qualquer momento.