マルチモーダル対話型 AI

自動音声認識から自然言語理解およびテキスト読み上げまで、パイプライン全体を加速します。

音声、視覚、言語分野の AI 活用サービスがもたらす革命によって、パーソナライズされた自然な対話を実現しますが、リアルタイム インタラクティブ性には、精度とレイテンシに関する厳しい要件が存在します。NVIDIA の対話型 AI プラットフォームを利用すると、開発者は、単一の統合型アーキテクチャ全体でアプリケーションにパワーを与える最先端の AI サービスをすばやく構築およびデプロイすることができ、ごくわずかな先行投資で高精度かつ低レイテンシのシステムを実現します。

 
最先端モデル

最先端モデル

NVIDIA DGX™ システムで 100,000 時間を超えるトレーニングが施された、NGC™ の対話型 AI モデルを活用できます。

カスタム マルチモーダル スキル

カスタム マルチモーダル スキル

音声、言語、視覚をたやすく組み合わせて単一のパイプラインを作成し、人間のようなインタラクティブ スキルを構築できます。

迅速なデプロイ

迅速なデプロイ

単一のコマンドで、最適化済みモデルをクラウド、データ センター、エッジにデプロイできます。

エンドツーエンドの高速化

エンドツーエンドの高速化

パイプライン全体を高速化し、モデル推論をわずか 300 ミリ秒 (ms) 未満のレイテンシ バウンドで実行できます。

真のエンドツーエンドの高速化

完全に高速化されたパイプライン

1 秒未満のフル パイプライン推論

音声文字起こし用の自動音声認識 (ASR)、自然言語理解 (NLU)、テキスト読み上げ (TTS) で構成されたフル対話型 AI パイプラインを、リアルタイム インタラクションに適したわずか 300 ms 未満のレイテンシ バウンドで実行しながら、ユーザー エクスペリエンスを損なうことなく、パイプラインを複雑化するための余地を確保することが可能です。

NVIDIA A100 Tensor コア GPU は、BERT のトレーニングにおいて、アクセラレータ単体で 6.53 時間、最大スケールで 0.83 分という、MLPerf Training v0.7 ベンチマークの記録を塗り替えるパフォーマンスを実現しました。

対話型 AI アプリケーション向け
NVIDIA ソリューション

専用システムでトレーニングとデプロイを実施する

大規模にトレーニングする

NVIDIA DGX™ A100 には、最先端データ センター アクセラレーターである NVIDIA A100 Tensor コア GPU が 8 基搭載されています。Tensor Float 32 (TF32) 精度により、コードを一切変更することなく、前世代より 10 倍の AI パフォーマンスの改善を実現します。一般的な NLP モデルに構造化スパース性を活用することで、さらに 2 倍のパフォーマンス向上がもたらされます。第 3 世代 NVIDIA® NVLink®、第 2 世代 NVIDIA NVSwitch™、NVIDIA Mellanox® InfiniBand により、すべての GPU 間で超高帯域幅かつ低レイテンシの接続を可能にします。これにより、複数の DGX A100 システムを使用して膨大な数十億規模のパラメーターを有するモデルを大規模にトレーニングして、最先端の高精度を実現することができます。また、オープンソース ツールキットである NVIDIA NeMo™ を使用すると、開発者は DGX 対応の対話型 AI モデルを、わずか数行のコードで構築、トレーニング、微調整できます。

大規模にトレーニングする
エッジでデプロイする

エッジでデプロイする

NVIDIA EGX™ A100 を利用すると、エッジで大量の音声データおよび言語データを処理することで、ネットワーキング レイテンシを回避しながらリアルタイムの対話型 AI の運用を可能にします。NVIDIA TensorRT™ により、開発者は推論用モデルを最適化して、低レンテイシかつ高スループットの対話型 AI アプリケーションを実現することが可能です。そして NVIDIA Triton™ 推論サーバーにより、モデルを本番環境にデプロイできます。TensorRT と Triton 推論サーバーは、対話型 AI のアプリケーション フレームワークである NVIDIA Jarvis と連携することで、エンドツーエンドの GPU 対応マルチモーダル パイプラインを、EGX で構築およびデプロイできます。Jarvis は内部的機能により、TensorRT を適用し、Triton 推論サーバーを設定し、標準の API を介してサービスを公開し、Kubernetes クラスターの Helm チャートを介して単一コマンドでデプロイを行います。

AI 活用マルチモーダル スキル

マルチ スピーカー トランスクリプション

従来の文字起こしアルゴリズムが進歩し、会議、講義、社交会話を文字起こしできるようになりました。話者の識別と、発言が誰のものであるかのラベル付けが同時に行われます。NVIDIA Jarvis では、マルチセンサーの音声データと視覚データを複数の音声をリアルタイムで区別するために必要な視覚ダイアライゼーションなどの高度な文字起こしコンポーネントに使用される単一の情報ストリームに融合できます。

 
 

仮想アシスタント

仮想アシスタントはほぼ人間と同じように顧客に対応することが可能です。コンタクト センター、スマート スピーカー、車内インテリジェント アシスタントのインタラクションに活用できます。音声認識、言語理解、音声合成、ボコーダーといった AI 活用サービスは、対話の追跡といった重要コンポーネントを備えていないため、こうしたシステムに単体では対応できません。Jarvis は、そうした基幹サービスに、あらゆるアプリケーションに拡張できる使いやすいコンポーネントを補います。

企業アプリケーションと 開発者ライブラリの高速化

  • エコシステム パートナー
  • 開発者ライブラリ

GPU 対応の主要な音声、視覚、言語のワークフローでは、エンタープライズ規模の要件を満たすことができます。

InstaDeep
Intelligent Voice
Kensho
MeetKai
MTS
NetApp
QuantiPhi
Siminsights
Voca.ai

GPU 対応の最先端ディープラーニング モデルを構築する人気の対話型 AI ライブラリ

DeepPavlov
ESPNet
Hugging Face
Ludwig
PerceptiLabs
SpaCy
RASA

業界の使用事例

チャット ベースのアプリケーションで患者体験を改善する

チャット ベースのアプリケーションで患者体験を改善する

自然言語処理を使用する Curai のプラットフォームでは、患者が体調を医師に伝えたり、自身の医療記録にアクセスしたり、医療従事者が医療会話からデータを抽出して治療をより適切に通知できるようにします。

Square が GPU を活用して対話型 AI を改善

Square が GPU を活用して対話型 AI を改善

中小企業において顧客とのより効率的なコミュニケーションを支援する、対話型 AI エンジンである Square Assistant をご紹介します。

対話型 AI による金融サービスの変革

対話型 AI による金融サービスの変革

実装が成功する企業の取り組みと、ROI でビジネスを実現する方法をごご覧ください。

今すぐ対話型 AI の推進を始めましょう

NVIDIA NeMo フレームワークで AI モデルをトレーニングする

NVIDIA DGX A100 システムでトレーニングを実行する

NVIDIA Jarvis フレームワークでデプロイを簡素化する

NVIDIA EGX A100 システムを使用してエッジにデプロイする