NVIDIA H100 Tensor コア GPU

あらゆるデータ センターにかつてないパフォーマンス、スケーラビリティ、セキュリティを提供。

アクセラレーテッド コンピューティングの大きな飛躍

NVIDIA H100 Tensor コア GPU で、あらゆるワークロードのためのかつてないパフォーマンス、スケーラビリティ、セキュリティを手に入れてください。NVIDIA® NVLink® Switch システムにより、最大 256 基の H100 を接続して、エクサスケールのワークロードを加速でき、専用の Transformer Engine は、兆単位のパラメーターの言語モデルをサポートします。H100 は、NVIDIA Hopper アーキテクチャのイノベーションにより、業界をリードする対話型 AI を提供し、前世代と比較して 30 倍という驚異的な高速化を大規模な言語モデルで実現します。

エンタープライズからエクサスケールにワークロードを安定加速 

最大級のモデルで最大 9 倍の AI トレーニング パフォーマンス

混合エキスパート (3950 億個のパラメーター)

変革的 AI トレーニング

変革的 AI トレーニング

NVIDIA H100 GPU は、第 4 世代の Tensor コアと、FP8 精度の Transformer Engine を搭載し、MoE (Mixture-of-Experts) モデルのトレーニングを前世代よりも最大 9 倍高速化します。900 ギガバイト/秒 (GB/s) の GPU 間インターコネクトを提供する第 4 世代の NVlink、ノード間の各 GPU による通信を加速する NVLINK Switch システム、PCIe Gen5、および NVIDIA Magnum IO ソフトウェアの組み合わせによって、小規模な企業から大規模で統一された GPU クラスターまで効率的に拡張できるようになっています。

データ センター規模での H100 GPU 導入は卓越したパフォーマンスを実現し、あらゆる研究者に次世代のエクサスケール ハイパフォーマンス コンピューティング (HPC) と兆単位パラメーター AI をもたらします。

リアルタイム ディープラーニング推論

AI は、さまざまなビジネスの課題を、同じくらいさまざまなニューラル ネットワークを使用して解決します。優れた AI 推論アクセラレータには、最高のパフォーマンスだけでなく、様々なネットワークを加速するための多様性も求められます。

H100 では、推論が最大 30 倍高速化になる、レイテンシが最小限に抑えられるなど、機能が強化されます。それにより、市場をリードする NVIDIA の推論のリーダーシップをさらに拡大します。第 4 世代の Tensor コアは FP64、TF32、FP32、FP16、INT8 など、あらゆる精度をスピードアップします。Transformer Engine は FP8 と FP16 の両方を活用してメモリ消費を減らしてパフォーマンスを増やしつつ、大規模な言語モデルで精度を維持します。

最大級のモデルで最大 30 倍の AI 推論パフォーマンス

Megatron Chatbot (5300 億個のパラメーター)

リアルタイム ディープラーニング推論

HPC アプリケーションのパフォーマンスが最大 7 倍に

AI-fused HPC Applications

エクサスケール ハイパフォーマンス コンピューティング

NVIDIA データ センター プラットフォームは、ムーアの法則を超えるパフォーマンス向上を継続的に提供します。また、H100 の新しい画期的な AI 機能は、HPC+AI のパワーをさらに増幅し、世界の最重要課題の解決に取り組む科学者や研究者にとって、発見までの時間が加速されます。

H100 は、倍精度 Tensor コアの毎秒浮動小数点演算 (FLOPS) を 3 倍にし、HPC で 60 teraFLOPS の FP64 コンピューティングを実現します。AI と融合した HPC アプリケーションでは、H100 の TF32 精度を活用し、コードの変更なしに、単精度行列乗算演算で 1 petaFLOP のスループットを達成することができます。

H100 はまた、DPX 命令を備え、NVIDIA A100 Tensor コア GPU の 7 倍のパフォーマンスを提供し、DNA シーケンス アライメント用の Smith-Waterman など、動的プログラミング アルゴリズムにおいて従来のデュアルソケット CPU のみのサーバーと比較して 40 倍の高速化を実現します。

データ分析

データ分析は多くの場合、AI アプリケーションの開発時間の大半を占めます 大規模なデータセットは複数のサーバーに分散されるため、CPU だけの市販のサーバーによるスケールアウト ソリューションでは、スケーラブルなコンピューティング パフォーマンスに欠け、動かなくなります。

H100 で高速化するサーバー、GPU ごとに毎秒 3 テラバイトのメモリ帯域幅、NVLink と NVSwitch によるスケーラビリティなら、膨大なデータセットに対処するハイパフォーマンスとスケールでデータを分析できます。NVIDIA Quantum-2 Infiniband、Magnum IO ソフトウェア、GPU 高速化 Spark 3.0、NVIDIA RAPIDS と組み合わせることで、NVIDIA データ センター プラットフォームは、かつてないレベルのパフォーマンスと効率性で膨大なワークロードを、他にはない方法で、高速化できます。

H100 を使用した高速サーバー
NVIDIA マルチインスタンス GPU

企業で効率的に利用

IT マネージャーはデータ センターでコンピューティング リソースの利用率 (ピークと平均の両方) を最大化することを求めます。多くの場合、コンピューティングを動的に再構成し、使用中のワークロードに合わせてリソースを正しいサイズに変更します。

H100 の第 2 世代のマルチインスタンス GPU (MIG) は、最大 7 つのインスタンスに安全に分割することで、各 GPU の利用率を最大化します。コンフィデンシャル コンピューティングをサポートする H100 は、クラウド サービス プロバイダー (CSP) 環境に理想的な、エンドツーエンドで安全なマルチテナント利用を可能にします。

H100 と MIG なら、インフラストラクチャ管理者は GPU アクセラレーテッド インフラストラクチャを標準化できて、同時に、GPU リソースを非常に細かくプロビジョニングできます。正しい量のアクセラレーテッド コンピューティングが安全に開発者に与えられ、GPU リソースの利用を最適化します。

NVIDIA のコンフィデンシャル コンピューティングとセキュリティ

今日のコンフィデンシャル コンピューティング ソリューションは CPU ベースで、AI や HPC など、大量の計算処理を必要とするワークロードの場合、十分ではありません。NVIDIA コンフィデンシャル コンピューティングは NVIDIA Hopper アーキテクチャの組み込みセキュリティ機能です。NVIDIA H100 を、コンフィデンシャル コンピューティング機能のある世界初のアクセラレータにしたのがこのアーキテクチャです。ユーザーは使用中のデータとアプリケーションの機密性と完全性を保護し、同時に、H100 GPU のかつてない高速化を利用できます。ハードウェアベースの TEE (Trusted Execution Environment/信頼できる実行環境) を作り、1 個の H100 GPU で、1 個のノード内の複数の H100 GPU で、または個々の MIG インスタンスで実行されるワークロード全体をセキュリティで保護し、隔離します。GPU で高速化するアプリケーションは、何も変更せずに TEE 内で実行できます。また、分割する必要がありません。ユーザーは AI と HPC のための NVIDIA ソフトウェアのパワーと、NVIDIA コンフィデンシャル コンピューティングから与えられるハードウェア RoT (Root of Trust/信頼の起点) のセキュリティを組み合わせることができます。

NVIDIA コンフィデンシャル コンピューティング ソリューション
NVIDIA H100CX コンバージド アクセラレータ

NVIDIA H100 CNX コンバージド アクセラレータ

NVIDIA H100 CNX は NVIDIA H100 のパワーと、NVIDIA ConnectX®-7 スマート ネットワーク インターフェイス カード (SmartNIC) の高度なネットワーク機能を唯一無二のプラットフォームに組み合わせるものです。このコンバージェンスによって、エンタープライズ データの分散 AI トレーニングやエッジの 5G 処理など、IO (入出力) 量が多く、GPU をパワーとするワークロードのためにかつてないパフォーマンスが与えられます。

NVIDIA Grace Hopper

Hopper Tensor コア GPU は、テラバイト規模のアクセラレーテッド コンピューティングのために開発された NVIDIA Grace Hopper CPU+GPU アーキテクチャのパワーとなります。大規模モデルの AI と HPC で 10 倍のパフォーマンスを実現します。NVIDIA Grace CPU は Arm® アーキテクチャの柔軟性を活用するものです。アクセラレーテッド コンピューティングのために CPU とサーバーのアーキテクチャをゼロから設計できます。Hopper GPU は NVIDIA の超高速チップ間相互接続で Grace とペアリングされます。毎秒 900GB の帯域幅が与えられ、PCIe Gen5 と比較して 7 倍の速さになります。この革新的な設計によって、現行で最速のサーバーと比較し、合計帯域幅が最大 30 倍になります。パフォーマンスは最大 10 倍になり、テラバイト単位のデータをアプリケーションで実行できます。

NVIDIA コンフィデンシャル コンピューティング ソリューション

製品仕様

フォーム ファクター H100 SXM H100 PCIe
FP64 30 teraFLOPS 24 teraFLOPS
FP64 Tensor コア 60 teraFLOPS 48 teraFLOPS
FP32 60 teraFLOPS 48 teraFLOPS
TF32 Tensor コア 1,000 teraFLOPS* | 500 teraFLOPS 800 teraFLOPS* | 400 teraFLOPS
BFLOAT16 Tensor コア 2,000 teraFLOPS* | 1,000 teraFLOPS 1,600 teraFLOPS* | 800 teraFLOPS
FP16 Tensor コア 2,000 teraFLOPS* | 1,000 teraFLOPS 1,600 teraFLOPS* | 800 teraFLOPS
FP8 Tensor コア 4,000 teraFLOPS* | 2,000 teraFLOPS 3,200 teraFLOPS* | 1,600 teraFLOPS
INT8 Tensor コア 4,000 TOPS* | 2,000 TOPS 3,200 TOPS* | 1,600 TOPS
GPU メモリ 80GB 80GB
GPU メモリ帯域幅 3TB/秒 2TB/秒
デコーダー 7 NVDEC
7 JPEG
7 NVDEC
7 JPEG
最大熱設計電力 (TDP) 700W 350W
マルチインスタンス GPU 最大 7 個の MIG @ 10GB
フォーム ファクター SXM PCIe
相互接続 NVLink: 900GB/秒 PCIe Gen5: 128GB/秒 NVLINK: 600GB/秒 PCIe Gen5: 128GB/秒
サーバー オプション 4 または 16 GPU 搭載の NVIDIA HGX H100 パートナーおよび NVIDIA-Certified Systems 8 GPU搭載の NVIDIA DGX H100 1~8 GPU 搭載のパートナーおよび NVIDIA Certified Systems™

NVIDIA Hopper アーキテクチャの詳細を見る