スピーチ AI
大規模言語モデルと RAG (検索拡張生成) ベースのアプリケーション用に、柔軟にカスタマイズ可能な多言語音声/翻訳 AI の開発キット。
動画 | ソリューション概要 | 開発者向け
NVIDIA® Riva は、柔軟にカスタマイズ可能なリアルタイム対話型 AI パイプラインを構築するための、GPU で強化された多言語音声/翻訳マイクロサービスです。Riva には自動音声認識 (ASR)、テキスト読み上げ (TTS)、ニューラル機械翻訳 (NMT) が含まれており、あらゆるクラウド、データ センター、エッジ、組み込みデバイスに導入できます。Riva を利用することで、組織は大規模言語モデル (LLM) と RAG (検索拡張生成) で音声と翻訳の機能を追加し、チャットボットをパワフルな多言語アシスタント/アバターに変えることができます。
最新式の多言語文字起こし、翻訳、音声で AI チャットボットを提供します。
Riva ASR では、マイクから入力するか、録音機器から .wav ファイルをアップロードすることで音声を正確にリアルタイムで書き起こします。言語を選択し、その様子をご覧ください。
注: 各サンプルの長さは 30 秒に制限されています。
音声を選択し、英語のテスト文章を入力すると、Riva が女性または男性の声で話します。
注: 入力テキストは 400 文字までに制限されています。
0 / 400
Riva スキルの使用は、 NVIDIA Riva 利用規約 の対象となります。お客様のデータは NVIDIA の製品やサービスの向上のために使用されます。
NVIDIA スーパーコンピューターで数千時間分の音源をベースに学習された最新式のモデルが、バイリンガルおよび多言語翻訳のために、高い精度で音声を文字に書き起こし、面倒な設定なしで、表現力に優れた女性または男性の声で話します。
さまざまな言語、アクセント、専門分野、語彙、文脈に合わせて ASR パイプライン全体をカスタマイズして、ユース ケースに最適な精度を実現し、TTS パイプライン全体で必要な音声とイントネーションを実現します。
データ センター、オンプレミス、クラウド、エッジ、または組み込みデバイスなど、お客様が選択した展開方法にて、既存テクノロジよりも高い推論パフォーマンスを実現し、数十万もの入力ストリームに対して一貫した顧客体験を提供します。
適切なツールを使用し、柔軟にカスタマイズ可能な多言語音声/翻訳 AI アプリケーションを開発。
Riva を API 経由のサンプル データや UI ベースのデモを無料で体験したい開発者のために、NVIDIA は NVIDIA AI Foundation のモデルと API エンドポイントを提供しています。ぜひご活用ください。
NVIDIA AI Enterprise を購入する前に Riva を試されたい企業のために、2 つのプランをご用意しております。
インフラストラクチャなし: 既存のインフラストラクチャがない場合、NVIDIA は NVIDIA LaunchPad を通じて無料のハンズオン ラボを提供します。
インフラストラクチャあり: インフラストラクチャが既にある場合、NVIDIA は NVIDIA AI Enterprise を 90 日間試用できる無料の評価ライセンスを提供します。
T-Mobile uses NVIDIA Riva ASR in their call center to accurately transcribe customer conversations and provide real-time recommendations to help agents quickly resolve customer queries.
T-Mobile ではコール センターにてNVIDIA Riva ASR を使用しており、顧客の会話を正確に書き起こし、推奨項目をリアルタイムで提示することで窓口が顧客の問い合わせに迅速に対応できるように支援しています。
NCS は NVIDIA Riva TTS を使用し、運転手のお助けアプリである Breeze の何万人もの月間アクティブ ユーザーのために、声をシンガポール人の発音、トーン、アクセントにカスタマイズしました。
Tarteel は、NVIDIA Riva と NVIDIA NeMo を使用し、コーラン朗読のリアルタイム フィードバックを大規模に提供し、コーランに取り組むイスラム教徒、講師、コンテンツ クリエイター、研究者を支援しています。
RingCentral は NVIDIA Riva を導入することで、ビデオ会議のリアルタイム文字起こしで比類のない精度を達成しました。多様なアクセントと分野固有の専門用語で話す数百万人のユーザーの役に立っています。
Data Monsters は NVIDIA Riva を使用して同社の Plabook アプリに音声パイプラインを追加しました。生徒の音読、音素レベルでの精度評価を支援し、生徒ひとりひとりに合わせてフィードバックを提供します。
Artisight は病院でのチェックインを自動化し、待合室の患者に音声で通知するキオスク端末のスマート ソリューションを開発しました。こちらのソリューションは、カスタマイズされたスピーチ AI アプリケーションを統合し、GPU で強化された NVIDIA Riva のテキスト読み上げスキルを利用して、即時に対応できる性能を提供するものです。
AT&T、Kore.ai、Deloitte、Sutherland は、多言語の ASR、翻訳、TTS を利用することでカスタマー セルフサービスのスピードと精度、オペレーターの生産性、企業の運用効率を上げています。その仕組みをご覧ください。
サービスの提供範囲を増やすバーチャル アシスタントとデジタル アバター、クレーム管理、注文処理、リスク軽減のための不正検出システムまの準備まで、業界に革命を起こしている NVIDIA Riva の最新の音声/翻訳 AI ソリューションについて、データ サイエンティストと AI テクノロジのエキスパートが語ります。
こちらのオンデマンド ウェビナーを視聴して、音声対応デジタル エージェントの形式でインテリジェントな仮想アシスタントを構築する方法を学びましょう。顧客満足度を向上させるために、柔軟で完全にカスタマイズ可能なソリューションを導入する方法をご紹介します。
Motorola と SoftServe は、対話型 AI 体験に求められるスピードと規模で、正確な文字起こし、翻訳、魅力的な音声を提供します。その仕組みをご覧ください。
スピーチおよび翻訳 AI サービスの構築に役立つ Riva の主要な機能を理解しましょう。
チュートリアル、Jupyter Notebook、ドキュメントなど、NVIDIA Riva でスピーチおよび翻訳 AI パイプラインの構築を開始するために必要なものがすべて揃っています。
Riva を使用してスピーチおよび翻訳 AI アプリケーションを構築および展開する方法に関する技術的なチュートリアルをお読みください。
高性能の推論と最小限の労力で、本番環境で Riva ASR モデルと TTS モデルの統合とデプロイを開始する方法をご覧ください。
多言語音声/翻訳 AI アプリケーションの開発に最適なラインセンスを見つけましょう。また、こちらの開発リソース もご参照ください。
セキュリティ、API、テストから運用環境への移行方法や、NVIDIA AI Enterprise サポートなど、NVIDIA の製品スペシャリストがお答えします。
NVIDIA から最新ニュース、お知らせなどの情報をお送りします。
2021 年、AI2Labs はシンガポールのローカル テクノロジ スタートアップとして Yoozoo Games から独立しました。 AI2Labs は、AI 製品とアプリケーションを革新、実験、開発を行い、効率的なプロセスを可能にし、持続可能性とビジネス成果を向上させます。
AI2Labs は、Riva を Speakr (ドメイン固有のスピーチ AI) 音声認識 API に統合して、複雑なアジアの音声およびビジネス ドメインに対応し、最先端のシングリッシュ翻訳精度を実現しました。
Avaya はクラウド通信およびワークストリーム コラボレーション ソリューションを専門とし、ユニファイド コミュニケーション、コンタクト センター、サービスとしての通信プラットフォーム (CPaaS)、および OneCloud プラットフォームを使用したサービスを提供しています。
Avaya は、大規模なリアルタイム キャプションのために NVIDIA Riva 文字起こしエンジンを統合しました。 Riva を使用すると、文字起こしの品質が向上し、単語エラー率が低下し、経済的効率の高い配信が可能になります。
インドのプネにある C-DAC の Applied AI グループは、10 年以上にわたり音声テクノロジの研究開発に注力してきました。同グループは、ヒンディ語やマラーティー語などのインド言語向けの最先端の文字起こし (STT) システムの作成に成功しました。このグループは、AI 対応のオープンソースのディープラーニング フレームワーク、ライブラリ、STT および他のインド言語や低リソース言語向けの音声対応アプリケーションを作成するためのツールを探索することで、研究を進め続けています。実験は、NVIDIA のオープンソース NeMo フレームワークのさまざまなニューラル ネットワーク アーキテクチャとトポロジを使用して実施され、Citrinet および Conformer-CTC ネットワーク トポロジが音声認識用のニューラル音響モデルの構築とトレーニングに効果的であることが証明されました。これらのモデルはシングルノードおよびマルチノードの Param Siddhi AI システムでトレーニングされ、トレーニング時間とパフォーマンスが最適化されました。最後に、Riva GPU アクセラレーションのプロダクション パイプラインを使用して、モデルをリアルタイムおよびバッチモード推論用にデプロイしました。
Singtel Group の子会社である NCS は、アジア太平洋地域に拠点を置く大手テクノロジ サービス企業であり、政府や企業と提携してテクノロジを通じてコミュニティを発展させています。 NCS は、61 の専門分野にわたる 12,000 人の強力なチームの経験と専門知識を組み合わせて、デジタル、データ、クラウド、プラットフォームの NEXT 機能に加え、アプリケーション、インフラストラクチャ、エンジニアリング、サイバーセキュリティのコア製品を使用して、差別化されたエンドツーエンドのテクノロジ サービスをクライアントに提供します。NCS はまた、オープン イノベーションと共創をサポートするために、主要なテクノロジ企業、研究機関、スタートアップと強力なパートナー エコシステムの構築を確信しています。
NCS は、ドライバーのコンパニオン アプリである Breeze で NVIDIA Riva TTS を使用して、音声ガイド ナビゲーション、ライブの交通状況と道路状況の更新、リアルタイムの駐車料金、および電子道路料金レートや営業時間を提供し、シンガポールのドライバーがスムーズな運転を体験できるようにしています。
breeze.com.sg/
www.ncs.co
お客様の事例
RingCentral は、グローバルなエンタープライズ クラウド コミュニケーション、コラボレーション、コンタクト センター ソリューションの大手プロバイダーであり、何百万ものユーザーにサービスを提供しています。 RingCentral プラットフォームは、あらゆる場所やデバイスからのコラボレーションを可能にし、ビジネス効率と顧客満足度を向上します。
RingCentral は、プラットフォーム上の 200,000 人の同時ユーザーのビデオ会議の文字起こしに NVIDIA Riva を使用しています。
www.ringcentral.com
GTC セッション
Snap は、フィルターやエフェクトを使用したマルチメディア メッセージの作成を可能にするカメラおよびソーシャル メディアの会社です。よりインタラクティブな体験を作成するために、Snapchat ユーザーはレンズ (スナップにリアルタイム効果を追加する機能) を 1 日に 60 億回以上使用しています。
NVIDIA Riva のノイズと言語に最適化されたスピーチ AI サービスは、Snap AR Lens Studio に統合されており、クリエイター (アーティストや開発者) が魅力的な拡張現実 (AR) 体験を構築できるようになります。
T-Mobile は、先進的な 4G LTE と革新的な 5G ネットワークを提供し、最高の顧客体験を実現します。コンタクト センターのエージェントを強化するために、T-Mobile は Expert Assist を導入しています。この AI ベースのソフトウェアは、NVIDIA Riva を使用してリアルタイムの顧客との会話を書き起こし、レコメンダーに供給して何千人ものエージェントを支援します。
Riva を使用することで、T-Mobile はカスタム データセットに基づいて自動音声認識モデルをファインチューニングし、騒がしい環境でも顧客の専門用語を正確に解釈します。
www.t-mobile.com
お客様のご質問にお答えし、組織のニーズにお応えします。
NVIDIA プライバシー ポリシー