音声認識から言語理解、音声合成までのパイプラインを加速する
音声、言語分野の AI 活用サービスがもたらす革命は、パーソナライズされた自然な対話を実現しますが、リアルタイムのインタラクティブ性には、精度とレイテンシに関する厳しい要件が存在します。NVIDIA の対話型 AI SDK を利用すると、開発者は、ごくわずかな先行投資で高精度かつ低遅延のシステムを実現しながら、単一の統一されたアーキテクチャでアプリケーションを強化する最先端の AI サービスを短期間で構築できます。
NVIDIA DGX™ システムで 100,000 時間以上、様々なオープン データや独自のデータセットで学習された NGC™ の対話型 AI モデルを活用します。
TAO Toolkit を使って、あなたの専門分野における音声、言語のスキルをカスタマイズすることができます。
単一のコマンドで、最適化済みモデルをクラウド、データ センター、エッジにデプロイできます。
パイプライン全体を高速化し、モデル推論をわずか 300 ミリ秒 (ms) 未満のレイテンシ バウンドで実行できます。
NVIDIA の E-Book をダウンロードしてください。対話型 AI の概要、その仕組み、現在における業界でのその応用について説明しています。
音声文字起こし用の自動音声認識 (ASR)、自然言語理解 (NLU)、テキスト読み上げ (TTS) で構成されたフル対話型 AI パイプラインを、リアルタイム インタラクションに適したわずか 300 ms 未満のレイテンシ バウンドで実行しながら、ユーザー エクスペリエンスを損なうことなく、パイプラインを複雑化するための余地を確保することが可能です。
NVIDIA A100 Tensor コア GPU は、BERT のトレーニングにおいて、アクセラレータ単体で 6.53 時間、最大スケールで 0.83 分という、MLPerf Training v0.7 ベンチマークの記録を塗り替えるパフォーマンスを実現しました。
実用水準の NVIDIA トレーニング済みモデルと TAO Toolkit を使用して、開発時間を 10 分の 1 に短縮します。
パワフルな数十億規模のパラメータを有する言語モデルを比類なきスピードとスケーラビリティでトレーニングすることで、解決所要時間を短縮できます。
最適化済み対話型 AI サービスをデプロイし、クラウド、データ センター、エッジで最大限のパフォーマンスを発揮させることができます。
エッジで大量の音声データおよび言語データを処理することで、ネットワーキング レイテンシを回避しながらリアルタイム対話を実現することができます。
NVIDIA DGX™ A100 には、最先端データ センター アクセラレーターである NVIDIA A100 Tensor コア GPU が 8 基搭載されています。Tensor Float 32 (TF32) 精度により、コードを一切変更することなく、前世代より 10 倍の AI パフォーマンスの改善を実現します。一般的な NLP モデルに構造化スパース性を活用することで、さらに 2 倍のパフォーマンス向上がもたらされます。第 3 世代 NVIDIA® NVLink®、第 2 世代 NVIDIA NVSwitch™、NVIDIA Mellanox® InfiniBand により、すべての GPU 間で超高帯域幅かつ低レイテンシの接続を可能にします。これにより、複数の DGX A100 システムを使用して膨大な数十億規模のパラメーターを有するモデルを大規模にトレーニングして、最先端の高精度を実現することができます。また、オープンソース ツールキットである NVIDIA NeMo™ を使用すると、開発者は DGX 対応の対話型 AI モデルを、わずか数行のコードで構築、トレーニング、微調整できます。
NVIDIA EGX™ プラットフォームは、エッジで大量の音声データと言語データを処理することで、ネットワーキング遅延を回避しながらリアルタイムで対話型 AI を推進できます。NVIDIA TensorRT™ により、開発者は推論用モデルを最適化して、低レンテイシかつ高スループットの対話型 AI アプリケーションを提供できます。そして NVIDIA Triton™ Inference Server により、モデルを本番環境にデプロイできます。TensorRT と Triton Inference Server は、対話型 AI のアプリケーション フレームワークの NVIDIA Riva と連携することで、エンドツーエンドの GPU 対応パイプラインを EGX で構築し、展開できます。Riva の内部では、TensorRT が適用され、Triton Inference Server が設定され、標準の API を介してサービスが公開され、Kubernetes クラスターの Helm チャートを介して単一コマンドが展開されます。
従来の文字起こしアルゴリズムが進歩し、会議、講義、社交会話を文字起こしできるようになりました。話者の識別と、発言が誰のものであるかのラベル付けが同時に行われます。NVIDIA Riva を使用すると、コール センターやビデオ会議での高精度な文字起こしや、医師と患者のやりとりでの臨床上の注意書き作成の自動化が可能になります。Riva を使えば、特定のユースケースのニーズに合わせてモデルやパイプラインをカスタマイズすることもできます。
仮想アシスタントはほぼ人間と同じように顧客に対応することが可能です。コンタクト センター、スマート スピーカー、車内インテリジェント アシスタントのインタラクションに活用できます。音声認識、言語理解、音声合成、ボコーダーといった AI 活用サービスは、対話の追跡といった重要コンポーネントを備えていないため、こうしたシステムに単体では対応できません。Riva は、そうした基幹サービスに、あらゆるアプリケーションに拡張できる使いやすいコンポーネントを補います。
GPU 対応の主要な音声、視覚、言語のワークフローでは、エンタープライズ規模の要件を満たすことができます。
人気の対話型 AI ライブラリを用いて、GPU 対応の最先端のディープラーニング モデルを構築しましょう。
自然言語処理を使用する Curai のプラットフォームでは、患者が体調を医師に伝えたり、自身の医療記録にアクセスしたり、医療従事者が医療会話からデータを抽出して治療をより適切に通知できるようにします。
中小企業において顧客とのより効率的なコミュニケーションを支援する、対話型 AI エンジンである Square Assistant をご紹介します。
実装が成功する企業の取り組みと、ROI でビジネスを実現する方法をごご覧ください。
Stay tuned for data science news and content, delivered straight to your inbox.
Send me the latest enterprise news, announcements, and more from NVIDIA. I can unsubscribe at any time.