スピーチ AI

対話型 AI アプリケーション向け音声ベースインターフェイスを提供します。

スピーチ AI とは?

スピーチ AI は、デバイス、マシン、コンピューターと会話することで、生活を便利にし、生活の質を上げることができます対話型 AI のサブセットには、自動音声認識 (ASR) と音声合成 (TTS) が含まれており、人間の声をテキストに変換し、文字から人間のような音声を生成します。仮想アシスタント、リアルタイムの文字起こし、音声検索、質疑応答システムなどのパワフルなテクノロジが可能になります。

スピーチ AI を使用する利点

世界最高レベルの精度

スピーチ AI モデルのカスタマイズで実現されるこのクラス最高の精度で顧客体験が特別なものにアップグレードされます。

多言語サポート

顧客が話す言語で音声ベースのアプリケーションを提供することで、顧客基盤を拡大します。

高いパフォーマンスとスケーラビリティ

オンプレミス、クラウド、エッジ、組み込みなど、あらゆるインフラストラクチャで瞬時に拡張できる低レイテンシで高スループットのアプリケーションで、より多くの顧客にサービスを提供します。

ブランド独自の自然な声

ブランド独自の声は顧客の関心を引き、意味のある顧客関係を短期間で築き、顧客サービスを充実させることができます。

無料 E-book: スピーチ AI アプリケーションの構築

対話型 AI アプリケーション向けリアルタイムスピーチ AI パイプラインを構築し、展開する方法をご紹介します。

E-book をダウンロードする

スピーチ AI の活用

複数の話者の発言を同時に書き起こす

最新の文字起こしアルゴリズムは、会議、講義、社交的な会話を書き起こし、また、話者を特定し、その発言にラベルを付けます。NVIDIA スピーチ AI の技術と SDK を使用すれば、コールセンターの会話やビデオ会議を正確に書き起こすことができ、医師が患者を診察する際のメモ作成を自動化したりすることができます。

NVIDIA Riva: 独自のスピーチ AI アプリケーションを構築する

アシスタントををバーチャルにする。

仮想アシスタントは音声インターフェイスを介してユーザーとやりとりし、コールセンターで顧客対応をしたり、スマートホームアシスタントとしてテレビを操作、車内のインテリジェントアシスタントとして最寄りのガソリンスタンドまで案内するなど、さまざまなタスクを支援します。NVIDIA Omniverse Avatar Cloud Engine (ACE) を活用し、NVIDIA スピーチ AI テクノロジを統合することで、使いやすく、ディープニューラルネットワークベースのコンポーネントをインタラクティブなアバターアプリケーションに統合し、正確かつ高速で自然なやりとりを実現します。

Omniverse ACE でインタラクティブアバターを開発し、デプロイする

声のブランド化

特徴的なブランドボイスを利用することで、企業は、音声や言語に障害がある人を含むすべての顧客をサポートしながら、顧客と関係を構築するアプリケーションを開発することができます。スピーチ AI に含まれる NVIDIA Custom Voice を利用すると、わずか 30 分の録音音声データがあれば、個性的で高品質のブランドボイスを数週間ではなく数時間で簡単に作成できます。

Project Tokkio の NVIDIA Omniverse ACE による専門的で自然な Q&A

カスタマイズ可能なスピーチ AI インターフェイスの開発

トレーニング済みモデルを使用してトレーニングを短縮する。

現代のスピーチ AI システムは、膨大なデータセットでトレーニングされたディープニューラルネットワーク (DNN) モデルを使用します。時間の経過とともにスピーチ AI モデルの規模が非常に大きくなり、そのようなモデルのトレーニングには、高性能な GPU で PyTorch、TensorFlow、MXNet などのディープラーニングフレームワークを使用しても、大量の計算処理に数週間かかることがあります。

NVIDIA スピーチ AI は、NVIDIA NGC™ カタログにトレーニング済みで製品品質のモデルを提供します。それらモデルは、NVIDIA DGX™ システムで数十万時間以上にわたり、公共および独自のデータセットでトレーニングされます。

NVIDIA トレーニング済みモデルの詳細を見る

図 1: 精度の高いトレーニング済みモデル。

図 2: エンドツーエンド TAO ツールキットワークフロー。

モデルをカスタマイズして精度を上げる。

多くの企業では、特定の対話型アプリケーションに最適な精度を達成するために、スピーチ AI モデルをカスタマイズする必要があります。しかし、スピーチ AI モデルをゼロからカスタマイズするには、通常、大規模なトレーニングデータセットと AI の専門知識が必要になります。

AI 経験がなくても、開発をスピードアップし、音声モデルをカスタマイズを行うなら、ローコード AI モデル開発キットである NVIDIA TAO Toolkit を利用できます。これは、実証済みの遷移学習のアプローチがトレーニング済みモデルに応用され、ユースケースに合わせてスピーチ AI モデルを微調整します。NVIDIA は、研究者が最先端のスピーチ AI モデルを構築するためのオープンソースツールキットである NeMo も提供しています。NeMo と TAO Toolkit で最適化されたモデルは音声サービスとしてオンプレミスまたはクラウドの NVIDIA® Riva に簡単にエクスポートし、展開できます。

eBook をダウンロードして、カスタマイズ可能なスピーチ AI 開発をはじめる

リアルタイムスキルを身に着け、自然なやりとりを実現する。

スピーチ AI スキルについては、企業は常に精度かリアルタイム性能のどちらかを選択する必要がありました。たとえば、質問をして応答を数秒待つことはありえません。また、対話型 AI アプリケーションが間違って解釈し、意味不明な発言をすることも避けなければなりません。

NVIDIA Riva なら、企業は世界最高レベルの精度を達成しながら、スピーチ AI パイプラインを数ミリ秒以下のリアルタイムで実行できます。Riva は NGC の最先端のトレーニング済みモデル、世界最高レベルの精度を達成するための微調整を行う TAO Toolkit などのローコードツール、リアルタイム性能のための最適化されたスキルを提供します。

Riva を運用環境に導入した企業の手法を見る

図 3: NVIDIA Riva のスピーチ AI スキル機能。

スピーチ AI の最新の画期的なテクノロジ

多言語になるスピーチ AI

スピーチ AI のアプリケーションとパイプラインでは、世界中に展開する複数の言語、方言、アクセントを理解する必要があります。たとえば、米国とその他のほとんどの国の人は異なる言語を話します。コールセンターのようなユースケースでは、現状を説明するために顧客が複数の言語を使うことがあります。次のステップは、こうした状況に対応できるスピーチ AI アプリケーションを用意することです。

開発者は、言語ごとに別々のスピーチモデルを使用することも、複数の言語を処理できる 1 つのモデルを使用することもできます。さまざまな言語の ASR モデルに関する説明については、音声認識コレクションページで詳細をご覧ください。

スピーチ AI をクラウドからデバイスへ

企業がスピーチ AI を初めて使用し始めた頃は、設定や使用方法が簡単なクラウドサービスを誰もが利用しました。その後、データのプライバシー問題を避けるため、企業は徐々にオンプレミスソリューションに切り替え始めました。現在では、データのプライバシーを守るだけでなく、推論が速く、コストを削減する、オンデバイスソリューションが最新のテクノロジとなっています。

NVIDIA Riva により、アプリケーションを組み込み、データセンター、クラウド環境に展開し、対話型 AI アプリケーション向けのカスタマイズ可能なスピーチ AI インターフェイスを開発できます。

スピーチ AI について学ぶ

スピーチ AI 入門

スピーチ AI のコア概念と、音声技術のアプリケーションの構築および展開方法を理解します。

スピーチ AI eBook を読む

わかりやすい対話型 AI

対話型 AI アプリにスピーチ AI を追加する方法と、トレーニング時と推論時にカスタマイズする方法を学習します。

GTC セッション「わかりやすい対話型 AI」を見る

スピーチ AI ブログ

スピーチ AI の概要、スピーチ AI の歴史、主要コンポーネント、課題、導入事例、NVIDIA スピーチ AI SDK について学びます。

スピーチ AI ブログを読む

詳解 NVIDIA Riva

NVIDIA Riva の主な機能を理解しておくとスピーチ AI サービスを構築するときに役立ちます。

NVIDIA Riva 紹介ブログを読む

登録してスピーチ AI に関する最新ニュースを NVIDIA から受け取る

新規登録する