NVIDIA A100
Tensor コア GPU

規模を問わず、前例のない加速

現代で最も重要な作業を高速化

NVIDIA A100 Tensor コア GPU によるあらゆるスケールでの前例のない高速化をもって、世界で最も困難な計算に AI、データ分析、 HPC で挑むことができます。NVIDIA データ センター プラットフォームのエンジン A100 は、数千単位の GPU に効果的に拡張できます。あるいは、NVIDIA マルチインスタンス GPU (MIG) テクノロジを利用し、7 個の GPU インスタンスに分割し、あらゆるサイズのワークロードを加速できます。また、第 3 世代 Tensor コアでは、多様なワークロードであらゆる精度が高速化され、洞察を得るまでの時間と製品を市場に届けるまでの時間が短縮されます。

AI と HPC の最もパワフルなエンドツーエンド データ センター プラットフォーム

A100 は 、ハードウェア、ネットワーキング、ソフトウェア、ライブラリ、最適化された AI モデル、 NGC のアプリケーションにわたる構成要素を組み込んだ NVIDIA の完全データ センター ソリューション スタックの一部です。データ センター向けとして最もパワフルな AI/HPC 用エンドツーエンド プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

Ampere のメイキング映像

AI トレーニング向けの TF32 を使用して、設定不要で最大 6 倍高速な性能を実現

BERT トレーニング

ディープラーニング トレーニング

正確に会話する AI やディープ リコメンダー システムなど、次のレベルの課題に挑むため、AI モデルの複雑性が爆発的に増しています。モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。

NVIDIA A100 の第 3 世代 Tensor コア と Tensor Float (TF32) 精度を利用することで、前世代と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られ、Automatic Mixed Precision (AMP) と FP16 の活用でさらに 2 倍の高速化が可能になります。第 3 世代 NVIDIA® NVLink®、NVIDIA NVSwitch™、PCI Gen4、NVIDIA Mellanox InfiniBand、NVIDIA Magnum IO ソフトウェア SDK の組み合わせで、数千単位の A100 GPU まで拡張できます。拡張することで、BERT のような大型の AI モデルを 1,024 個の A100 からなるクラスターでわずか 37 分でトレーニングできます。このパフォーマンスとスケーラビリティには前例がありません。

トレーニングにおける NVIDIA の優位性は MLPerf 0.6 で実証されました。これは業界全体で使える初の AI トレーニング向けベンチマークです。

ディープラーニング推論

A100 には、推論ワークロードを最適化する画期的な新機能が導入されています。その汎用性には前例がなく、FP32 から FP16、INT8 に INT4 まで、あらゆる精度を加速します。 マルチインスタンス GPU (MIG) テクノロジでは、1 個の A100 GPU で複数の AI モデルを同時に運用できるため、計算リソースの使用を最適化できます。また、A100 の数々の推論高速化は、スパース行列演算機能によってさらに 2 倍の性能を発揮します。

業界初の推論用ベンチマークである MLPerf Inference 0.5 ですべて制覇したことからわかるように、NVIDIA は市場をリードする推論パフォーマンスをすでに成し遂げています。A100 はパフォーマンスを 10 倍にし、そのリードをさらに広げます。

AI 推論のためのマルチインスタンス GPU (MIG) により最大 7 倍高速な性能を実現

BERT 大規模推論

Deep Learning Inference

4 年間で 9 倍の HPC パフォーマンス

上位 HPC アプリケーションのスループット

High-Performance Computing

ハイパフォーマンス コンピューティング

次世代の新しい技術を開発するために、サイエンティストたちは複雑な分子に対する理解度を上げるシミュレーションを求めています。そのシミュレーションによって薬を発見したり、物理学から新しいエネルギー源の可能性を探ったり、大気データから極端な天候パターンを今までより高い精度で予測し、それに備えたりします。

A100 には倍精度の Tensor CoresTensor コア が搭載されています。HPC 向けの GPU で倍精度演算を導入して以来、最大の画期的出来事です。これにより、研究者たちは、NVIDIA V100 Tensor コア GPU で 10 時間を要していた倍精度シミュレーションを、A100 でたった 4 時間に短縮できます。HPC アプリケーションではまた、A100 の Tensor コアで TF32 精度を活用し、単精度の密行列積で最大 10 倍の演算スループットを実現できます。

ハイパフォーマンス データ分析

顧客は、大量のデータセットを分析し、可視化し、洞察に変えることを求めています。しかしながら、スケールアウト ソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。

A100 を搭載したアクセラレーテッド サーバーなら、要求される計算処理能力のほか、毎秒 1.6 テラバイト (TB/秒) のメモリ帯域幅、第 3 世代 NVLink と NVSwitch によるスケーラビリティがもたらされ、大規模なワークロードに取り組むことができます。Mellanox InfiniBand、Magnum IO SDK、GPU 対応 Spark 3.0、 GPU 活用データ分析用のソフトウェア スイートである RAPIDS™ との組み合わせにより、 NVIDIA データ センター プラットフォームは、画期的なレベルの比類なきパフォーマンスと効率で非常に大規模なワークロードを加速することができます。

High-Performance Data Analytics

マルチインスタンス GPU (MIG) による 7 倍の推論スループット

BERT 大規模推論

Enterprise-Ready Utilization

企業で効率的に利用

A100 と MIG の組み合わせにより、GPU 対応インフラストラクチャを今までにないレベルで最大限に活用できます。MIG によって A100 GPU は最大 7 つの独立したインスタンスに分割でき、複数のユーザーが自分のアプリケーションや開発プロジェクトを GPU で高速化できます。MIG は Kubernetes やコンテナー、ハイパーバイザベースのサーバー仮想化によるNVIDIA Virtual Compute Server(vComputeServer) と連携します。 MIG を使用することで、インフラ管理者は各ジョブのサービス品質 (QoS) を保証した適切なサイズの GPU を提供し、使用率を最適化し、高速化されたコンピューティング リソースの範囲をすべてのユーザーに拡大することができます。

仕様

  NVLink 向け NVIDIA A100
ピーク FP64 9.7 TF
ピーク FP64 Tensor コア 19.5 TF
ピーク FP32 19.5 TF
ピーク TF32 Tensor コア 156 TF | 312 TF*
ピーク BFLOAT16 Tensor コア 312 TF | 624 TF*
ピーク FP16 Tensor コア 312 TF | 624 TF*
ピーク INT8 Tensor コア 624 TOPS | 1,248 TOPS*
ピーク INT4 Tensor コア 1,248 TOPS | 2,496 TOPS*
GPU メモリ 40 GB
GPU メモリ帯域幅 1,555 GB/s
相互接続 NVIDIA NVLink 600 GB/s
PCIe Gen4 64 GB/s
マルチインスタンス GPU 最大 7MIG @5GB のさまざまなインスタンス サイズ
フォーム ファクター 4/8 SXM on NVIDIA HGX A100
最大 TDP 電力 400W
 

NVIDIA Ampere アーキテクチャの詳細

NVIDIA Ampere アーキテクチャとその NVIDIA A100 GPU における実装に関する最新情報については、このウェビナーにご参加ください。