NVIDIA、スーパーコンピューティング向けデータセンターのダウンタイムを最小化する AI プラットフォームを発表

NVIDIA Mellanox UFM Cyber-AI プラットフォームが、セキュリティ脅威の検出とネットワーク障害の予測を行い、予知メンテナンスを主導

2020 年 6 月 22 日、カリフォルニア州サンタクララ - ISC 2020 Digital - NVIDIA は本日、AI を活用したアナリティクスによってセキュリティ脅威と運用上の問題の検出、ならびにネットワーク障害の予測を行い、InfiniBand データセンターのダウンタイムを最小化する、NVIDIA® Mellanox® UFM® Cyber-AI プラットフォームを発表しました。

UFM プラットフォーム製品ポートフォリオは10 年近くにわたって InfiniBand システムを管理してきてきました。本ポートフォリオから派生した今回の新たなプラットフォームは、AI を使って、データセンターの運用状況とネットワーク ワークロードのパターンを学習するもので、リアルタイムと過去のテレメトリ データとワークロード データが活用されます。このベースラインと比較対照しながら、プラットフォームはシステムの健全性とネットワークの変化を追跡し、性能の劣化、利用度およびプロファイルの変更を検出します。

また、この新しいプラットフォームはシステムおよびアプリケーションの異常な振る舞い、ならびに存在している可能性のあるシステム障害と脅威についてのアラートを発し、矯正措置をとります。また、仮想通貨マイニングのような、望まれていないアプリケーションを埋め込む、システム ハッキングがあった場合にも、セキュリティ アラートを発するように設計されています。それによって、データセンターのダウンタイムが削減されるようになります。ITIC によれば、データセンターのダウンタイムにより、通常 1 時間当たり 30 万ドル以上の費用が発生します。(1)

NVIDIA の Mellanox ネットワーキング マーケティング担当シニア バイスプレジデントのギラッド シャイナー (Gilad Shainer) は、次のように述べています。「UFM Cyber-AI プラットフォームは、データセンター独自のバイタル サインを判断し、そのデータを使って、性能の劣化やコンポーネントの障害、異常な利用パターンを見つけ出します。これにより、システム管理者は、潜在的なセキュリティ脅威を迅速に検知して、これに対応し、予測される障害にも対処できるようになり、費用を削減しながら、顧客にサービスを継続的に提供できるようになります。」

エコシステムからの支持
データセンターにUFMプラットフォームを長年採用してきた企業や機関からは、今回の新たなオファリングへの強い関心が寄せられています。

オーストラリア国立大学にあるNational Computational Infrastructure (NCI Australia) のアソシエイトディレクター (サービスおよび技術) である アレン ウィリアムズ (Allan Williams) 氏は、次のように述べています。「NCIのスーパーコンピューティング インフラストラクチャは、国内や世界の重要な活動に取り組む5,000 人の研究者に利用されており、オーストラリアの研究環境において極めて重要な役割を果たしています。UFMはスーパーコンピューターの効率的な管理とパフォーマンスの最適化を可能にします。私たちはUFM Cyber-AI の新しい機能を活用して、スパコンの利用率をさらに高め、投資収益率を向上させていきたいと考えています。」

Ohio Supercomputer Center のアソシエーション ディレクターであるダグラス ジョンソン (Douglas Johnson) 氏は、次のように話しています。「当センター内にあるInfiniBand のデータセンターでは、数年間にわたって UFM プラットフォームを使ってきました。UFM と Mellanox ネットワーキング チームの専門性が、当センターのネットワークの管理および安定性を支える、基本的な要素となっています。UFM Cyber-AIプラットフォーム には大きな利点があると私たちは考えています。」

UFM プラットフォームの機能拡張
UFM Cyber-AI プラットフォームは、ネットワークの監視、管理、性能最適化、構成チェックおよび安全なケーブル管理を行う、UFM Enterprise プラットフォームを補完するものです。

さらに、NVIDIA は本日、UFM ファミリーに第 3 のメンバーとしてUFM Telemetry プラットフォームを追加しました。このツールは、ネットワークのテレメトリ データをリアルタイムで捉えるもので、そのデータがオンプレミスまたはクラウドのデータベースにストリーミングされることで、ネットワークの性能の監視とネットワークの構成検証ができるようになります。

補足情報

NVIDIA について
1999 年における NVIDIA (NASDAQ 表示: NVDA) による GPU の発明は、PC ゲーミング市場の成長に爆発的な拍車をかけ、現代のコンピューター グラフィックスを再定義し、並列コンピューティングに革命的変化を起こしました。最近では、GPU ディープラーニングが最新の AI (次世代コンピューティング) に火をつけ、世界を知覚し理解することができるコンピューター、ロボット、自律走行車の脳として GPU は機能しています。詳細は、こちらのリンクから: www.nvidia.com/ja-jp/

(1) ITIC 2020 グローバル サーバー ハードウェアおよびサーバー OS の信頼性調査 — 2020 年 3 月