NVIDIA、クラウドAIビデオストリーミングプラットフォームを発表
数百万の人々がリモート作業や学習が可能に

GPU アクセラレーションAI プラットフォーム NVIDIA Maxineにより、ビデオ会議プロバイダーはストリーミング品質を大幅に向上させ、超解像度、視線補正、ライブキャプションなどのAI機能を提供

2020 年 10 月 5 日、カリフォルニア州サンタクララ — GTC — NVIDIA は本日、開発者がクラウドベースのGPU アクセラレーション AI ビデオ会議ソフトウェアスイートによって、インターネットで最も多いトラフィックの発生元であるストリーミングビデオを強化する NVIDIA Maxine プラットフォームを発表しました。

NVIDIA Maxine は、クラウドネイティブのストリーミングビデオ用 AI プラットフォームです。これにより、サービスプロバイダーは、AI を活用した新たな機能を、毎日推定3,000 万以上行われているウェブ会議に実装させることができます。クラウドで NVIDIA GPU をベースにしたプラットフォームを使用しているビデオ会議のサービスプロバイダーは、視線補正、超解像度、ノイズキャンセリング、顔の再照明といった、AI の新しい効果をユーザーに提供できるようになります。

データはローカルのデバイスではなく、クラウドで処理されるため、エンドユーザーは、特殊なハードウェアなしで新しい機能が利用できます。

NVIDIA のアクセラレーテッドコンピューティング担当ゼネラルマネージャー兼バイスプレジデントであるイアンバック (Ian Buck) は、次のように述べています。「ビデオ会議は、現代では毎日の生活の一部になっており、数百万の人々が仕事をしたり、学んだり、遊んだりできるようになっているほか、医師の診断も受けられるようになっています。NVIDIA Maxine は、NVIDIA の最新のビデオ、音声および対話型 AI の機能を統合させたもので、例を見ない効率性と新機能を、私たち全員が普段接続しているプラットフォームにもたらしてくれます」

AI の効率性のブレイクスルーによって帯域幅を減らしながら、通信品質を向上
Maxine プラットフォームは、ビデオ通信に必要な帯域幅を大幅に削減します。画面すべてのピクセルをストリーミングする代わりに、AI ソフトウェアが、会議中の各人の顔の重要なポイントを分析し、相手側のビデオでその顔をインテリジェントに再度動きを付けます。これにより、インターネットでやりとりされるデータの量を減らしながらビデオをストリーミングすることが可能になります。

NVIDIA GPU を活用した、AI ベースの新しい動画圧縮テクノロジにより、開発者は、最大でH.264 ストリーミングビデオ圧縮規格の要件の 10 分の 1 に帯域幅の使用量を削減することができます。これによって、プロバイダーの費用が削減され、エンドユーザーにより滑らかなビデオ会議体験を提供することができ、コンピューターやタブレット、携帯電話でのデータストリーミング量が少なくなるため、AI を活用したサービスをより多く楽しめるようにもなります。

AI 機能がビデオ会議の体験を向上
Maxine を含む、NVIDIA の研究者による新しいブレイクスルーにより、ビデオ会議でも対面して会話しているような感覚を得られるようになります。ビデオ会議サービスのプロバイダーは、敵対的生成ネットワークとも呼ばれている、GAN についての NVIDIA の研究を活用して、さまざまな新機能を提供できるようになります。

たとえば、顔の位置調整によって、通信中に相手と正面から向き合っているように自動的に調整が行われ、視線補正によって、カメラがユーザーの画面に向いていない場合でも、アイコンタクトがシミュレーションされます。今年の初めから、ビデオ会議は 10 倍の増加を見せており、このような機能によって、人々はカメラを気にすることなく、会話に集中できるようになります。

開発者は、通信のすべての参加者が、それぞれの声と感情的なトーンに基づいて、リアルタイムで、自動的に生成される本物のようなアニメーションで自身を描写したアバターを選択できるようにする機能を追加することもできます。また、自動フレームを選択すれば、話者がスクリーンから離れている場合でも、その話者の話に応じて動画がフィードされるようになります。

NVIDIA Jarvis SDK による対話型 AI 機能を使うことで、開発者は最新の AI 言語モデルを使った音声認識、言語理解および音声生成を行う、仮想アシスタントを組み込むことができます。この仮想アシスタントは、発言の記録やアクションアイテムの設定、人間のような声での質問への回答ができます。翻訳やクローズドキャプション、文字起こしといった、追加の対話型 AI のサービスにより、参加者は通信での会話内容を理解することができます。

クラウドネイティブのアーキテクチャにより、費用の節約と大規模な AI 活用が可能に
特定の時間帯におけるビデオ会議対する需要は予測が困難で、数百人どころか、数千人が同じ通信に参加しようとする可能性もあります。NVIDIA Maxine は、NVIDIA GPU を活用した Kubernetes コンテナクラスタで作動する AI マイクロサービスを利用することで、開発者はリアルタイムでの需要に応じてサービスを拡張することができます。ユーザーは、アプリケーションのレイテンシ要件を楽々とクリアしながら、複数の AI 機能を同時に実行することができます。

ビデオ会議サービスのプロバイダーは、Maxine を使い、クラウドの NVIDIA GPU で AI 推論ワークロードを実行することで、数十万人のユーザーに先進の AI 機能を提供できるようになります。また、Maxine プラットフォームのモジュラー設計により開発者は、AI の機能を選択して、それらを自身のビデオ会議ソリューションに組み入れることが簡単にできます。

NVIDIA AI 開発者ツールが勢揃い
Maxine プラットフォームには、いくつもの NVIDIA AI SDK および API のテクノロジが組み込まれています。NVIDIA Jarvis に加えて、Maxine プラットフォームでは、高スループットの音声およびビデオストリーミングの SDK であるNVIDIA DeepStream と高性能なディープラーニング推論を実現するNVIDIA TensorRT™ SDK が活用されています。

Maxine プラットフォームで使用されている NVIDIA SDK より提供される、AI による音声、ビデオおよび自然言語処理は、トレーニング、推論およびデータサイエンスのワークロードのための世界屈指のプラットフォームである NVIDIA DGX™ システムでの数十万時間のトレーニングを経て開発されました。

発売予定
音声およびビデオのアプリとサービスを制作している、コンピュータービジョン AI の開発者、ソフトウェアパートナーおよびコンピューターメーカーは、NVIDIA Maxine プラットフォームのアーリーアクセス申請が可能です。

その他のリソース
動画: Maxine Streaming Video AI SDK demo
動画: NVIDIA Research AI Video Compression demo
ブログ: AI Can See Clearly Now: GANs Take the Jitters Out of Video Calls
ブログ: NVIDIA Jarvis and Merlin Enter Open Beta, Enabling Conversational AI and Democratizing Recommenders
ブログ: Generative Adversarial Network とは―トップ研究者が解説

※NVIDIA Jarvis の名称は 2021 年 7 月に NVIDIA Riva に変更されました。

NVIDIA について
1999 年における NVIDIA (NASDAQ 表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューターグラフィックスを再定義し、並列コンピューティングに革命的変化を起こしました。最近では、GPU ディープラーニングが最新の AI (次世代コンピューティング) に火をつけ、世界を知覚し理解することができるコンピューター、ロボット、自律走行車の脳として GPU は機能しています。詳細は、こちらのリンクから: www.nvidia.com/ja-jp/

NVIDIA Maxine の利益、機能および可用性、ビデオ会議サービスプロバイダーが GAN についての NVIDIA の研究を活用して新機能を提供できるようになること、および開発者が仮想アシスタントを組み込むことができるようになることなど、本プレスリリースにおける一定の記載は将来の見通しに関する記述であり、予測とは著しく異なる結果を生ずる可能性があるリスクと不確実性を伴っています。かかるリスクと不確実性は、世界的な経済環境、サードパーティに依存する製品の製造・組立・梱包・試験、技術開発および競合による影響、新しい製品やテクノロジの開発あるいは既存の製品やテクノロジの改良、当社製品やパートナー企業の製品の市場への浸透、デザイン・製造あるいはソフトウェアの欠陥、ユーザーの嗜好および需要の変化、業界標準やインターフェイスの変更、システム統合時に当社製品および技術の予期せぬパフォーマンスにより生じる損失などを含み、その他のリスクの詳細に関しては、Form 10-K での NVIDIA のアニュアルレポートならびに Form 10-Q での四半期レポートなど、米証券取引委員会 (SEC) に提出されている NVIDIA の報告書に適宜記載されます。SEC への提出書類は写しが NVIDIA の Web サイトに掲載されており、NVIDIA から無償で入手することができます。これらの将来予測的な記述は発表日時点の見解に基づくものであって将来的な業績を保証するものではなく、法律による定めがある場合を除き、今後発生する事態や環境の変化に応じてこれらの記述を更新する義務を NVIDIA は一切負いません。

NVIDIA、クラウドAIビデオ ストリーミング プラットフォームを発表数百万の人々がリモート作業や学習が可能に

NVIDIA、クラウドAIビデオストリーミングプラットフォームを発表
数百万の人々がリモート作業や学習が可能に