音声認識から言語理解、音声合成までのパイプラインを加速する
音声、視覚、言語分野の AI 活用サービスがもたらす革命によって、パーソナライズされた自然な対話を実現しますが、リアルタイム インタラクティブ性には、精度とレイテンシに関する厳しい要件が存在します。NVIDIA の対話型 AI SDK なら、開発者は最先端のマルチモーダル AI サービスを迅速に構築/展開して、単一の統一されたアーキテクチャでアプリケーションを強化し、わずかな先行投資で高精度かつ低レイテンシのシステムを提供することができます。
NVIDIA DGX™ システムで 100,000 時間以上、様々なオープン データや独自のデータセットで学習された NGC™ の対話型 AI モデルを活用します。
TAO Toolkit を使って、ドメイン上の音声、言語、視覚のスキルをカスタマイズすることができます。
単一のコマンドで、最適化済みモデルをクラウド、データ センター、エッジにデプロイできます。
パイプライン全体を高速化し、モデル推論をわずか 300 ミリ秒 (ms) 未満のレイテンシ バウンドで実行できます。
音声文字起こし用の自動音声認識 (ASR)、自然言語理解 (NLU)、テキスト読み上げ (TTS) で構成されたフル対話型 AI パイプラインを、リアルタイム インタラクションに適したわずか 300 ms 未満のレイテンシ バウンドで実行しながら、ユーザー エクスペリエンスを損なうことなく、パイプラインを複雑化するための余地を確保することが可能です。
NVIDIA A100 Tensor コア GPU は、BERT のトレーニングにおいて、アクセラレータ単体で 6.53 時間、最大スケールで 0.83 分という、MLPerf Training v0.7 ベンチマークの記録を塗り替えるパフォーマンスを実現しました。
実用水準の NVIDIA トレーニング済みモデルと TAO Toolkit を使用して、開発時間を 10 分の 1 に短縮します。
パワフルな数十億規模のパラメータを有する言語モデルを比類なきスピードとスケーラビリティでトレーニングすることで、解決所要時間を短縮できます。
最適化済み対話型 AI サービスをデプロイし、クラウド、データ センター、エッジで最大限のパフォーマンスを発揮させることができます。
エッジで大量の音声データおよび言語データを処理することで、ネットワーキング レイテンシを回避しながらリアルタイム対話を実現することができます。
NVIDIA DGX™ A100 には、最先端データ センター アクセラレーターである NVIDIA A100 Tensor コア GPU が 8 基搭載されています。Tensor Float 32 (TF32) 精度により、コードを一切変更することなく、前世代より 10 倍の AI パフォーマンスの改善を実現します。一般的な NLP モデルに構造化スパース性を活用することで、さらに 2 倍のパフォーマンス向上がもたらされます。第 3 世代 NVIDIA® NVLink®、第 2 世代 NVIDIA NVSwitch™、NVIDIA Mellanox® InfiniBand により、すべての GPU 間で超高帯域幅かつ低レイテンシの接続を可能にします。これにより、複数の DGX A100 システムを使用して膨大な数十億規模のパラメーターを有するモデルを大規模にトレーニングして、最先端の高精度を実現することができます。また、オープンソース ツールキットである NVIDIA NeMo™ を使用すると、開発者は DGX 対応の対話型 AI モデルを、わずか数行のコードで構築、トレーニング、微調整できます。
NVIDIA EGX™ A100 を利用すると、エッジで大量の音声データおよび言語データを処理することで、ネットワーキング レイテンシを回避しながらリアルタイムの対話型 AI の運用を可能にします。NVIDIA TensorRT™ により、開発者は推論用モデルを最適化して、低レンテイシかつ高スループットの対話型 AI アプリケーションを実現することが可能です。そして NVIDIA Triton™ 推論サーバーにより、モデルを本番環境にデプロイできます。TensorRT と Triton 推論サーバーは、対話型 AI のアプリケーション フレームワークである NVIDIA Riva と連携することで、エンドツーエンドの GPU 対応マルチモーダル パイプラインを、EGX で構築およびデプロイできます。Riva は内部的機能により、TensorRT を適用し、Triton 推論サーバーを設定し、標準の API を介してサービスを公開し、Kubernetes クラスターの Helm チャートを介して単一コマンドでデプロイを行います。
従来の文字起こしアルゴリズムが進歩し、会議、講義、社交会話を文字起こしできるようになりました。話者の識別と、発言が誰のものであるかのラベル付けが同時に行われます。NVIDIA Riva では、マルチセンサーの音声データと視覚データを複数の音声をリアルタイムで区別するために必要な視覚ダイアライゼーションなどの高度な文字起こしコンポーネントに使用される単一の情報ストリームに融合できます。
仮想アシスタントはほぼ人間と同じように顧客に対応することが可能です。コンタクト センター、スマート スピーカー、車内インテリジェント アシスタントのインタラクションに活用できます。音声認識、言語理解、音声合成、ボコーダーといった AI 活用サービスは、対話の追跡といった重要コンポーネントを備えていないため、こうしたシステムに単体では対応できません。Riva は、そうした基幹サービスに、あらゆるアプリケーションに拡張できる使いやすいコンポーネントを補います。
GPU 対応の主要な音声、視覚、言語のワークフローでは、エンタープライズ規模の要件を満たすことができます。
人気の対話型 AI ライブラリを用いて、GPU 対応の最先端のディープラーニング モデルを構築しましょう。
自然言語処理を使用する Curai のプラットフォームでは、患者が体調を医師に伝えたり、自身の医療記録にアクセスしたり、医療従事者が医療会話からデータを抽出して治療をより適切に通知できるようにします。
中小企業において顧客とのより効率的なコミュニケーションを支援する、対話型 AI エンジンである Square Assistant をご紹介します。
実装が成功する企業の取り組みと、ROI でビジネスを実現する方法をごご覧ください。
Stay tuned for data science news and content, delivered straight to your inbox.
Send me the latest enterprise news, announcements, and more from NVIDIA. I can unsubscribe at any time.