Мультимодальный разговорный ИИ

Ускорьте весь процесс от автоматического распознавания речи до понимания естественного языка и преобразования текста в речь.

Сервисы на основе ИИ обеспечивают абсолютно новую возможность для персонализированной естественной коммуникации, но имеют высокие требования к точности и задержке для работы в реальном времени. Благодаря платформе NVIDIA для разговорного ИИ разработчики могут быстро создавать и развертывать современные сервисы ИИ для приложений на единой унифицированной архитектуре, обеспечивая работу систем с высокой точностью и низкой задержкой при небольших начальных инвестициях.

 
Conversational AI Models From NGC

Современные модели

Используйте разговорные модели ИИ из NGC™, которые более 100 000 часов обучались на системах NVIDIA DGX systems.

Multinodal Solutions to Build Human-Like Interactive Skills

Настраиваемые мультимодальные навыки

Легко объедините речь, язык и зрение в единый конвейер для разработки интерактивных навыков, аналогичных человеческим.

Deploy Optimized Models in the Cloud & Data Center

Быстрое развертывание

Развертывайте оптимизированные модели в облаке, дата-центре и на периферийных устройствах с помощью одной команды.

End-to-End Acceleration to Execute Model Inference Under the 300ms latency Bound

Сквозное ускорение

Ускорьте весь конвейер и проводите инференс моделей с задержкой менее 300 мс.

Сквозное ускорение

Максимальное ускорение конвейера

Инференс за доли секунды

Осуществляйте весь конвейер разговорного ИИ, который состоит из автоматического распознавания речи для расшифровки аудио, понимания естественного языка и преобразования текста в речь с задержкой менее 300 мс для взаимодействия в реальном времени. Это позволит повысить сложность конвейера без ущерба для пользовательских возможностей.

Графический ускоритель NVIDIA A100 с тензорными ядрами установил рекорд производительности в бенчмарке MLPerf Training v0.7, продемонстрировав результат 6,53 часа для одного ускорителя в BERT и WikiText и 0,83 минуты для всей системы.

Решения NVIDIA для
приложений разговорного ИИ

Тренировка и развертывание со специальными системами

Масштабирование обучения

NVIDIA DGX™ A100 оснащена 8 графическими процессорами NVIDIA A100 с тензорными ядрами и представляет собой самый передовой в мире ускоритель для дата-центров. Поддержка операций TF32 в 20 раз повышает производительность инференса ИИ по сравнению с предыдущим поколением и не требует изменений в коде, а также обеспечивает ускорение в 2 раза благодаря использованию структурной разреженности для популярных моделей обработки естественного языка (NLP). NVIDIA ® NVLink® третьего поколения, NVIDIA NVSwitch™ второго поколения и NVIDIA Mellanox® InfiniBand обеспечивают высокоскоростную коммуникацию всех GPU с низкой задержкой. Это позволяет нескольким системам DGX A100 обучать большие модели с миллиардами параметров, обеспечивая максимальную точность. С открытым набором инструментов NVIDIA NeMo™ разработчики могут создавать, обучать и настраивать модели разговорного ИИ с ускорением на DGX при помощи всего нескольких строк кода.

NVIDIA DGX A100: универсальная система для инфраструктуры ИИ
NVIDIA EGX™ A100 обеспечивает разговорный ИИ в реальном времени

Развертывание на границе сети

NVIDIA EGX Platform обеспечивает разговорный ИИ в реальном времени и исключает задержки сети благодаря обработке больших объемов речи и языковых данных на границе сети. Используя NVIDIA TensorRT™, разработчики могут оптимизировать модели для инференса и обеспечить работу приложений разговорного ИИ с низкой задержкой и высокой пропускной способностью. Сервер для инференса NVIDIA Triton™ позволяет развернуть модели в рабочей среде. TensorRT и сервер для инференса Triton работают с NVIDIA Jarvis, фреймворком для разработки и развертывания мультимодального GPU-ускоренного ИИ на EGX. Jarvis использует TensorRT, настраивает сервер для инференса Triton и предоставляет доступ к сервисам через стандартный API, благодаря развертыванию с помощью одной команды и пакетов Helm на кластере Kubernetes.

Мультимодальные навыки на основе ИИ

Расшифровка нескольких голосов

Классические алгоритмы преобразования текста в речь развиваются и теперь позволяют расшифровывать конференции, лекции и разговоры, одновременно идентифицируя говорящих и размечая их речь. NVIDIA Jarvis объединяет звуковые и визуальные данные из нескольких источников в единый поток информации, который используется для продвинутых компонентов расшифровки, например визуальной диаризации, необходимой для дифференциации нескольких голосов в реальном времени.

 
 

Виртуальный помощник

Виртуальные помощники могут взаимодействовать с пользователями почти аналогично людям, обеспечивая коммуникацию в контактных центрах, работу интеллектуальных динамиков и помощников в автомобиле. Сервисы на основе ИИ, например с распознаванием речи, пониманием языка, синтезом голоса и отдельным кодированием речевых сигналов, не могут поддерживать такую систему, поскольку не имеют ключевых функций, таких как отслеживание диалога. Jarvis дополняет эти основные сервисы простыми в использовании компонентами, которые можно расширить для любого приложения.

Ускорение корпоративных систем и библиотек для разработчиков

  • Партнеры экосистемы
  • Библиотеки для разработчиков

Ускорьте основные задачи речи, зрения и языка с помощью GPU, чтобы отвечать корпоративным требованиям.

InstaDeep
Intelligent Voice
Kensho
MeetKai
MTS
NetApp
QuantiPhi
Siminsights
Voca.ai

Популярные библиотеки разговорного ИИ для создания современных моделей глубокого обучения с ускорением на GPU

DeepPavlov
ESPNet
Hugging Face
Ludwig
PerceptiLabs
SpaCy
RASA

Примеры из практики

Curai’s Platform to Enhance Patient Experience

Чат-приложение расширяет возможности пациентов

Используя обработку естественного языка, платформа Cureai позволяет пациентам рассказать доктору о своем самочувствии, получить доступ к медицинской карте и помогает врачам извлекать данные из диалогов для полного информирования о лечении.

Square Takes Edge Off Conversational AI with GPUs

Square совершенствует разговорный ИИ с помощью GPU

Узнайте о движке разговорного ИИ Square Assistant, который позволяет маленьким компаниям более эффективно общаться с клиентами. 

Transforming  Financial  Services  With Conversational  AI

Трансформация финансовых услуг с разговорным ИИ

Узнайте, как проходит цифровая трансформация компании для успешного внедрения ИИ и как обеспечить свой бизнес благодаря окупаемости инвестиций.

Начните ускорение разговорного ИИ

Тренируйте модели ИИ с фреймворком NVIDIA NeMo

Обучайте модели на системах NVIDIA DGX A100

Упростите развертывание с фреймворком NVIDIA Jarvis

Развертывание на периферийных устройствах с помощью NVIDIA EGX A100