NVIDIA Ampere アーキテクチャ

世界最高クラスのパフォーマンスを誇るエラスティックなデータ センターの心臓部。

現代のデータセンターにおける AI と HPC のコア

科学者、研究者、エンジニアは、AI と ハイ パフォーマンス コンピューティング (HPC) を利用し、科学、産業、ビッグ データにおける世界で最も重要な課題を解決しようとしています。その一方で企業は、AI のパワーを活用し、オンプレミスとクラウドの両方で、膨大なデータセットから新しいインサイトを抽出する方法を探しています。エラスティック コンピューティングの時代に合わせて設計された NVIDIA Ampere アーキテクチャは、規模を問わず比類なき高速化を実現することで、次の大きな飛躍をもたらします。

画期的なイノベーション

540 億のトランジスタを搭載した NVIDIA Ampere アーキテクチャ は、これまでに構築されてきた中で最大の 7 ナノメートル (nm) チップであり、6 つの画期的なイノベーションを特徴としています。

第 3 世代 Tensor コア

NVIDIA Volta™ アーキテクチャで最初に導入された NVIDIA Tensor コア テクノロジは、AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。NVIDIA Ampere アーキテクチャはこのイノベーションを基盤としており、新しい精度である Tensor Float 32 (TF32) と 64 ビット浮動小数点 (FP64) を導入することで、AI の導入を加速して簡素化し、Tensor コアのパワーを HPC にもたらします。

TF32 は FP32 と同じように動作しますが、コードを変更しなくても、AI を最大 20 倍スピードアップします。 NVIDIA Automatic Mixed Precisionを使用すると、研究者はわずか数行のコードを追加するだけで、自動混合精度と FP16 でさらに 2 倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4 に対応しているので、NVIDIA Ampere アーキテクチャの Tensor コア GPU の Tensor コアは、AI のトレーニングと推論の両方に対する、非常に汎用性の高いアクセラレータです。また、Tensor コアのパワーを HPC にもたらす A100 および A30 GPU GPU では、完全な IEEE 準拠の FP64 精度での行列演算を実行できます。

第 3 世代 Tensor コア
Multi-Instance GPU (MIG)

Multi-Instance GPU (MIG)

あらゆる AI と HPC アプリケーションがアクセラレーションの恩恵を受けることができますが、すべてのアプリケーションが GPU のフル パフォーマンスを必要とするわけではありません。Multi-Instance GPU (MIG) は、 A100  と A30 GPU PU でサポートされている機能であり、ワークロードが GPU を共有することを可能にします。MIG を利用すると、各 GPU を複数の GPU インスタンスに分割できます。各インスタンスは完全に分離され、ハードウェア レベルで保護され、専用の高帯域幅メモリ、キャッシュ、コンピューティング コアを与えられます。これにより開発者は、大小を問わずあらゆるアプリケーションに対して画期的な高速化を利用できるようになり、サービス品質も保証されます。また、IT 管理者は、適切なサイズの GPU アクセラレーションを提供することで利用率を最適化し、ベアメタル環境と仮想化環境の両方ですべてのユーザーとアプリケーションにアクセスを拡張できます。

スパース構造

スパース構造

現代の AI ネットワークは大きく、数百万、場合によっては数十億のパラメーターを持ち、ますますその規模は拡大しています。これらのパラメーターのすべてが正確な予測や推論に必要なわけではなく、一部のパラメーターをゼロに変換することで、精度を下げることなくモデルを「スパース」にすることができます。Tensor コアでは、スパースなモデルのパフォーマンスを最大 2 倍にすることができます。スパース機能は AI 推論で特に効果を発揮しますが、モデル トレーニングのパフォーマンス向上にも利用できます。

第 2 世代 RT コア

NVIDIA A40 および A10 GPU の NVIDIA Ampere アーキテクチャ第 2 世代 RT コアは、映画コンテンツのフォトリアルなレンダリング、建築設計の評価、製品設計のバーチャル プロトタイプなどのワークロードを大幅にスピードアップします。また、RT コアはレイトレースされたモーション ブラーのレンダリングもスピードアップします。短時間で結果が得られ、映像の精度が上がります。また、レイ トレーシングをシェーディング機能やノイズ除去機能と同時に実行できます。

第 2 世代 RT コア
よりスマートで高速なメモリ

よりスマートで高速なメモリ

A100 は、データ センターでの膨大な量のコンピューティングを可能にします。コンピューティング エンジンを常に完全に活用するために、A100 はこのクラスで最大となる毎秒 2 テラバイト (TB/s) のメモリ帯域幅を備えています。前世代の 2 倍以上です。さらに、A100 は前世代の 7 倍となる 40 メガバイト (MB) のレベル 2 キャッシュを含む、より大きなオンチップ メモリを搭載しており、コンピューティング パフォーマンスを最大限まで引き上げます。

エッジでコンバージド アクセラレーション

で NVIDIA Ampere アーキテクチャと NVIDIA BlueField®-2 データ プロセシング ユニット (DPU) が組み合わされた NVIDIA コンバージド アクセラレータは、かつてないコンピューティングとネットワーキングの高速化を実現し、データ センターやエッジで生成される膨大な量のデータを処理します。BlueField-2 は、ソフトウェア デファインドのストレージ、ネットワーキング、セキュリティ、マネジメント ワークロードのために、NVIDIA ConnectX®-6 Dx のパワー、プログラマブルな Arm コアとハードウェア オフロードを組み合わせます。NVIDIA コンバージド アクセラレータを利用すると、データを大量に利用するエッジやデータ センターのワークロードを、最大級のセキュリティとパフォーマンスで実行できます。

エッジでコンバージド アクセラレーション
NVIDIA A16 GPU

密度に最適化された設計

NVIDIA A16 GPU はクアッド GPU ボード デザインで、ユーザー密度に対して最適化されています。NVIDIA 仮想 PC (vPC) ソフトウェアと組み合わせることで、どこからでもアクセスできるグラフィックス リッチな仮想 PC を実現します。NVIDIA A16 は、CPU のみの VDI に比べて、より高いフレームレートと、より低いエンド ユーザー レイテンシを実現し、より応答性の高いアプリケーションと、ネイティブ PC に匹敵するユーザー体験を提供します。

NVIDIA Ampere アーキテクチャの詳細

最先端テクノロジによる NVIDIA Ampere アーキテクチャの詳細と、その GPU のフル ラインナップをご覧ください。