This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA H100 Tensor コア GPU

あらゆるデータセンターにかつてない性能、拡張性、セキュリティを提供。

詳細を見る

アクセラレーテッドコンピューティングの大きな飛躍

NVIDIA H100 Tensor コア GPU で、あらゆるワークロードのためのかつてない性能、拡張性、セキュリティを手に入れましょう。NVIDIA^® NVLink^® Switch System により、最大 256 個の H100 を接続し、エクサスケールのワークロードを高速化できます。さらに、専用の Transformer Engine を利用することで、パラメーターが兆単位の言語モデルを実装できます。H100 の複合的な技術革新により、大規模な言語モデルが前世代と比較して 30 倍も高速化され、業界の一歩先を行く対話型 AI が可能となります。

NVIDIA H100 データシート

NVIDIA H100 PCIe データシートを読む

大規模言語モデル推論を加速

最大 1750億パラメーターの大規模言語モデル (LLM) の場合、PCIe ベースの H100 NVL with NVLink ブリッジは、Transformer Engine、NVLink、および 188GB HBM3 メモリを利用して、あらゆるデータセンターで最適な性能と容易な拡張性を提供し、LLM を主流にしています。H100 NVL GPU を搭載したサーバーは、電力制約のあるデータセンター環境において低遅延を維持しながら、GPT-175B モデルの性能を NVIDIA DGX™ A100 システムの最大 12 倍まで向上します。

エンタープライズ AI の準備はできていますか?

企業における AI の導入はもはや主流になっており、企業はこの新時代に向けて組織を加速させるエンドツーエンドの AI 対応インフラストラクチャを必要としています。

主流サーバー向けの H100 GPU には、NVIDIA AI Enterprise ソフトウェアスイートのサブスクリプション 5 年分 (エンタープライズサポートなど) が付属しており、その非常に優れた性能によって AI を簡単に導入できます。それにより、企業や組織は、AI チャットボット、レコメンデーションエンジン、ビジョン AI など、H100 で高速化する AI ワークフローを構築するために必要な AI フレームワークおよびツールが活用できるようになります。

NVIDIA AI Enterprise をアクティベートする

エンタープライズからエクサスケールまでワークロードを安定に高速化

最大規模のモデルでAI トレーニング性能を最大 9 倍に

混合エキスパート (3950 億個のパラメーター)

予想されるパフォーマンスは変更される可能性があります。Training Mixture of Experts (MoE) Transformer Switch-XXL バリアントと 1T トークンデータセット上の 395B パラメーター | A100 クラスター: HDR IB ネットワーク | H100 クラスター: NVLINK スイッチシステム、NDR IB

革新的な AI トレーニング。

H100 は第 4 世代の Tensor コアと、FP8 精度で混合エキスパート (MoE) モデルのトレーニングを前世代比最大 9 倍高速化するTransformer Engine を備えます。GPU と GPU を毎秒 900 ギガバイトで相互接続する第 4 世代 NVLink、ノード全体で GPU ごとに通信を高速化する NVLINK Switch System、PCIe Gen5、NVIDIA Magnum IO™ ソフトウェアの組み合わせによって、小規模なエンタープライズから大規模な統合 GPU クラスターまで効率的なスケーラビリティが与えられます。

データセンター規模での H100 GPU 導入は卓越したパフォーマンスを実現し、あらゆる研究者に次世代のエクサスケールハイパフォーマンスコンピューティング (HPC) と兆単位パラメーター AI をもたらします。

NVIDIA LaunchPad で NVIDIA AI と NVIDIA H100 を体験する

リアルタイムのディープラーニング推論。

AI は、さまざまなビジネスの課題を、同じくらいさまざまなニューラルネットワークを使用して解決します。優れた AI 推論アクセラレータには、最高のパフォーマンスだけでなく、様々なネットワークを加速するための多様性も求められます。

H100 は、推論を最大 30 倍高速化し、遅延を最小限に抑えるなど、いくつか機能が強化され、市場をリードする NVIDIA の推論のリーダーシップをさらに拡大します。第 4 世代の Tensor コアは、FP64、TF32、FP32、FP16、INT8、そして今では FP8 まで、あらゆる精度を高速化し、大規模な言語モデルで精度を維持しながら、メモリ消費を削減して性能を向上します

最大規模のモデルで AI 推論性能を最大 30 倍に。

Megatron チャットボット推論 (5300 億個のパラメーター)

Projected performance subject to change. Inference on Megatron 530B parameter model chatbot for input sequence length=128, output sequence length=20 | A100 クラスター: HDR IB ネットワーク | H100 クラスター: 16 個の H100 構成のための NDR IB ネットワーク | 1 秒と 1.5 秒の場合の 32 A100 と 16 H100 の比較 | 2 秒の場合の 16 A100 と 8 H100 の比較

HPC アプリケーションのパフォーマンスが最大 7 倍に。

エクサスケールハイパフォーマンスコンピューティング。

NVIDIA データセンタープラットフォームは、ムーアの法則を超えるパフォーマンス向上を継続的に提供します。また、H100 の新しい画期的な AI 機能は、HPC+AI のパワーをさらに増幅し、世界の最重要課題の解決に取り組む科学者や研究者にとって、発見までの時間が加速されます。

H100 は、倍精度 Tensor コアの毎秒浮動小数点演算 (FLOPS) を 3 倍にし、HPC で 60 teraFLOPS の FP64 コンピューティングを実現します。AI と融合した HPC アプリケーションでは、H100 の TF32 精度を活用し、コードの変更なしに、単精度行列乗算演算で 1 petaFLOP のスループットを達成することができます。

H100 はまた、DPX 命令を備え、NVIDIA A100 Tensor コア GPU の 7 倍のパフォーマンスを提供し、DNA シーケンスアライメント用の Smith-Waterman など、動的プログラミングアルゴリズムにおいて従来のデュアルソケット CPU のみのサーバーと比較して 40 倍の高速化を実現します。

データ分析の高速化。

データ分析は多くの場合、AI アプリケーションの開発時間の大半を占めます大規模なデータセットは複数のサーバーに分散されるため、CPU だけの市販のサーバーによるスケールアウトソリューションでは、スケーラブルなコンピューティングパフォーマンスに欠け、動かなくなります。

H100 で高速化するサーバー、GPU ごとに毎秒 3 テラバイトのメモリ帯域幅、NVLink と NVSwitch によるスケーラビリティなら、膨大なデータセットに対処するハイパフォーマンスとスケールでデータを分析できます。NVIDIA Quantum-2 Infiniband、Magnum IO ソフトウェア、GPU 高速化 Spark 3.0、NVIDIA RAPIDS^™ と組み合わせることで、NVIDIA データセンタープラットフォームは、比類なきレベルのパフォーマンスと効率性で膨大なワークロードを、他にはない方法で、高速化できます。

企業で効率的に利用。

IT マネージャーはデータセンターでコンピューティングリソースの利用率 (ピークと平均の両方) を最大化することを求めます。多くの場合、コンピューティングを動的に再構成し、使用中のワークロードに合わせてリソースを正しいサイズに変更します。

H100 の第 2 世代マルチインスタンス GPU (MIG) では、7 個ものインスタンスに分割することで各 GPU の利用率を最大化します。コンフィデンシャルコンピューティング対応の H100 では、マルチテナントをエンドツーエンドで安全に利用できます。クラウドサービスプロバイダー (CSP) 環境に最適です。

H100 と MIG なら、インフラストラクチャ管理者は GPU アクセラレーテッドインフラストラクチャを標準化できて、同時に、GPU リソースを非常に細かくプロビジョニングできます。正しい量のアクセラレーテッドコンピューティングが安全に開発者に与えられ、GPU リソースの利用を最適化します。

MIG の詳細を見る

コンフィデンシャルコンピューティングを内蔵。

今日のコンフィデンシャルコンピューティングソリューションは CPU ベースで、AI や HPC など、大量の計算処理を必要とするワークロードの場合、十分ではありません。NVIDIA コンフィデンシャルコンピューティングは NVIDIA Hopper™ アーキテクチャの組み込みセキュリティ機能です。H100 を、コンフィデンシャルコンピューティング機能のある世界初のアクセラレータにしたのがこのアーキテクチャです。ユーザーは使用中のデータとアプリケーションの機密性と完全性を保護し、同時に、H100 GPU の卓越した高速化を利用できます。ハードウェアベースの TEE (Trusted Execution Environment/信頼できる実行環境) を作り、1 個の H100 GPU で、1 個のノード内の複数の H100 GPU で、または個々の MIG インスタンスで実行されるワークロード全体をセキュリティで保護し、隔離します。GPU で高速化するアプリケーションは、何も変更せずに TEE 内で実行できます。また、分割する必要がありません。ユーザーは AI と HPC のための NVIDIA ソフトウェアのパワーと、NVIDIA コンフィデンシャルコンピューティングから与えられるハードウェア RoT (Root of Trust/信頼の起点) のセキュリティを組み合わせることができます。

NVIDIA コンフィデンシャルコンピューティングの詳細を見る

The convergence of GPU and SmartNIC.

NVIDIA H100 CNX combines the power of H100 with the advanced networking capabilities of the NVIDIA ConnectX^®-7 smart network interface card (SmartNIC) in a single, unique platform. This convergence delivers unparalleled performance for GPU-powered input/output (IO)-intensive workloads, such as distributed AI training in the enterprise data center and 5G processing at the edge.

Learn More About NVIDIA H100 CNX

大規模な AI と HPC のための比類のないパフォーマンス。

Hopper Tensor コア GPU は、テラバイト規模のアクセラレーテッドコンピューティングのために開発された NVIDIA Grace Hopper CPU+GPU アーキテクチャのパワーとなります。大規模モデルの AI と HPC で 10 倍のパフォーマンスを実現します。NVIDIA Grace CPU は Arm^® アーキテクチャの柔軟性を活用するものです。アクセラレーテッドコンピューティングのために CPU とサーバーのアーキテクチャをゼロから設計できます。Hopper GPU は NVIDIA の超高速チップ間相互接続で Grace CPU とペアリングされます。毎秒 900GB の帯域幅が与えられ、PCIe Gen5 と比較して 7 倍の速さになります。この革新的な設計によって、現行で最速のサーバーと比較し、GPU への合計システムメモリ帯域幅が最大 30 倍になります。パフォーマンスは最大 10 倍になり、テラバイト単位のデータをアプリケーションで実行できます。

NVIDIA Grace の詳細を見る

製品仕様

フォームファクター	H100 SXM	H100 PCIe	H100 NVL¹
FP64	34 teraFLOPS	26 teraFLOPS	68 teraFLOPs
FP64 Tensor コア	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
FP32	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
TF32 Tensor コア	989 teraFLOPS²	756 teraFLOPS²	1,979 teraFLOPs²
BFLOAT16 Tensor コア	1,979 teraFLOPS²	1,513 teraFLOPS²	3,958 teraFLOPs²
FP16 Tensor コア	1,979 teraFLOPS²	1,513 teraFLOPS²	3,958 teraFLOPs²
FP8 Tensor コア	3,958 teraFLOPS²	3,026 teraFLOPS²	7,916 teraFLOPs²
INT8 Tensor コア	3,958 TOPS²	3,026 TOPS²	7,916 TOPS²
GPU メモリ	80GB	80GB	188GB
GPU メモリ帯域幅	3.35TB/秒	2TB/秒	7.8TB/秒³
デコーダー	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG	14 NVDEC 14 JPEG
最大熱設計電力 (TDP)	最大 700W (構成可能)	300–350W (構成可能)	2x 350-400W (構成可能)
マルチインスタンス GPU	最大 7 個の MIG @ 10GB		各 12GB の最大 14 のMIG
フォームファクター	SXM	PCIe デュアルスロット空冷	2x PCIe デュアルスロット空冷
相互接続	NVLink: 900GB/秒 PCIe Gen5: 128GB/秒	NVLINK: 600GB/秒 PCIe Gen5: 128GB/秒	NVLink: 600GB/秒 PCIe Gen5: 128GB/秒
サーバーオプション	4 または 16 GPU 搭載の NVIDIA HGX^™ H100 パートナーおよび NVIDIA-Certified Systems^™ 8 GPU 搭載の NVIDIA DGX^™ H100	1～8 GPU 搭載のパートナーおよび NVIDIA Certified Systems™	2-4 組のパートナーおよび NVIDIA Certified Systems
NVIDIA AI Enterprise	アドオン	含む	含む

1. 参考仕様。仕様は変更される場合があります。H100 NVL PCIe カード 2 枚と NVLink Bridge を組み合わせた場合の仕様です。
2. 疎性あり。
3. HBM 帯域幅の総計

NVIDIA Hopper アーキテクチャの詳細を見る。

ホワイトペーパーを読む