Брошюра

Комплексные конвейеры разговорного ИИ

Подробное объяснение ASR и TTS, двух основных компонентов разговорного ИИ.

Что включает в себя эта брошюра?

Автоматическое распознавание речи (ASR) и преобразование текста в речь (TTS) являются двумя наиболее важными технологиями разговорного ИИ. Каждый из этих технологических конвейеров включает в себя несколько этапов, таких как предварительная обработка данных, модели глубокого обучения и постобработка. В этой брошюре подробно описано, что происходит в каждом из отдельных компонентов и как оценить производительность этих технологий.

Простое и быстрое передвижение

Что такое «автоматическое распознавание речи»?

Технология ASR, также известная как преобразование речи в текст, представляет собой процесс автоматического преобразования речи из аудиоформата в письменную форму.

Как работает система разговорного ИИ?

Что такое преобразование текста в речь?

Технология TTS, также известная как синтез речи, принимает текст в качестве входных данных и генерирует синтезированный голос, похожий на человеческий.

Как разговорный ИИ используется в промышленности?

Как оценить технологии ASR и TTS?

Для оценки производительности конвейеров ASR и TTS используются такие метрики, как пословная вероятность ошибки (WER) и средняя экспертная оценка разборчивости речи (MOS), соответственно.

Зарегистрируйтесь, чтобы скачать

Я хочу получать новостную рассылку NVIDIA по корпоративным решениям для бизнеса.
Я хочу получать новостную рассылку NVIDIA по технологиям и инструментам для разработчиков.

Я хочу получать новостную рассылку NVIDIA по корпоративным решениям для бизнеса, технологиям и инструментам для разработчиков.

Я хочу получать рассылку NVIDIA по: