NVIDIA A100 Tensor コア GPU

規模を問わず、前例のない加速

現代で最も重要な作業を 高速化

NVIDIA A100 Tensor コア GPU はあらゆる規模で前例のない高速化を実現し、世界最高のパフォーマンスを誇るエラスティック データ センターに AI、データ分析、HPC のためのパワーを与えます。NVIDIA Ampere アーキテクチャで設計された NVIDIA A100 は、NVIDIA データ センター プラットフォームのエンジンです。A100 は、前世代と比較して最大 20 倍のパフォーマンスを発揮し、7 つの GPU インスタンスに分割して、変化する需要に合わせて動的に調整できます。40GB と 80GB のメモリ バージョンで利用可能な A100 80GB は、毎秒 2 テラバイト (TB/秒) 超えの世界最速メモリ帯域幅を実現し、最大級のモデルやデータセットを解決します。

AI のためのエンタープライズ対応ソフトウェア

NVIDIA EGX™ プラットフォームには、最適化されたソフトウェアが含まれており、インフラストラクチャ全体にアクセラレーテッド コンピューティングを提供します。NVIDIA AI Enterprise を導入すると、企業は、NVIDIA-Certified Systems 搭載の VMware vSphere で実行するために NVIDIA が最適化し、認定し、サポートする AI およびデータ分析ソフトウェアからなるクラウドネイティブのエンドツーエンド スイートを利用することができます。NVIDIA AI Enterprise には、最新のハイブリッド クラウドにおける AI ワークロードの迅速な展開、管理、拡張を可能にする主要な NVIDIA テクノロジが含まれます。

AI と HPC の最もパワフルなエンドツーエンド データ センター プラットフォーム

A100 は 、ハードウェア、ネットワーキング、ソフトウェア、ライブラリ、最適化された AI モデル、 NGC のアプリケーションにわたる構成要素を組み込んだ NVIDIA の完全データ センター ソリューション スタックの一部です。データ センター向けとして最もパワフルな AI/HPC 用エンドツーエンド プラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

 

Ampere のメイキング映像

ディープラーニング トレーニング

最大級のモデルで最大 3 倍高速な AI トレーニング

DLRM トレーニング

Up to 3X Higher AI Training on Largest Models

​対話型 AI といった次のレベルの課題に挑む AI モデルは、爆発的に複雑化しています。モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。

NVIDIA A100 の Tensor コア と Tensor Float (TF32) を利用することで、NVIDIA Volta と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。NVIDIA® NVLink®、NVIDIA NVSwitch、PCI Gen4、NVIDIA® Mellanox® InfiniBand®NVIDIA Magnum IO SDK と組み合わせることで、数千個もの A100 GPU まで拡張できます。

2,048 基の A100 GPU という大規模な環境で、BERT などのトレーニング ワークロードを、世界記録となる 1 分未満で解決できます。

ディープラーニング レコメンデーション モデル (DLRM) といった大きなデータ テーブルを持つ最大級のモデルの場合、A100 80GB であれば、ノードあたり最大 1.3 TB の統合メモリに到達し、A100 40GB の最大 3 倍のスループットの増加が可能です。

NVIDIA は、AI トレーニングの業界標準ベンチマークである MLPerf で複数のパフォーマンス記録を打ち立て、そのリーダーシップを確立しました。

ディープラーニング推論

A100 には、推論ワークロードを最適化する画期的な機能が導入されています。FP32 から INT4 まで、あらゆる精度を加速します。マルチインスタンス GPU (MIG) テクノロジでは、1 個の A100 で複数のネットワークを同時に動作できるため、コンピューティング リソースの使用率が最適化されます。また、構造化スパース性により、A100 による数々の推論性能の高速化に加え、さらに最大 2 倍のパフォーマンスがもたらされます。

BERT などの最先端の対話型 AI モデルでは、A100 は推論スループットを CPU の最大 249 倍に高めます。

メモリ容量の大きな A100 80GB では各 MIG のサイズが 2 倍になります。自動音声認識用の RNN-T といった、バッチサイズが制約された非常に複雑なモデルでは、A100 40GB に比べて最大 1.25 倍のスループットが得られます。

市場をリードする NVIDIA のパフォーマンスは MLPerf 推論で実証されました。A100 は 20 倍のパフォーマンスを実現し、そのリードをさらに広げます。

CPU と比較して最大 249 倍高速な
AI 推論パフォーマンス

BERT 大規模推論

Up to 249X Higher AI Inference Performance  Over CPUs

A100 40GB と比較して最大 1.25 倍高速な
AI 推論パフォーマンス

RNN-T 推論: 単一のストリーム

Up to 1.25X Higher AI Inference Performance  Over A100 40GB

ハイパフォーマンス コンピューティング

次世代の発見を解き明かすため、科学者たちは、私たちを取り巻いている世界をより良く理解するために、シミュレーションに関心を向けています。

NVIDIA A100 は、GPU の導入以降で最大のHPCパフォーマンスの飛躍を実現するために、Tensor コアを導入しています。80 GB の最速の GPU メモリと組み合わせることで、研究者は 10 時間かかる倍精度シミュレーションをA100 で 4 時間たらすに短縮できます。HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットが最大 11 倍向上します。

大規模データセットを扱う HPC アプリケーションでは、メモリが追加された A100 80GB により、マテリアル シミュレーションの Quantum Espresso において最大 2 倍のスループットの増加を実現します。この膨大なメモリと前例のないメモリ帯域幅により、A100 80GB は次世代のワークロードに最適なプラットフォームとなっています。

4 年間で 11 倍の HPC パフォーマンス

上位 HPC アプリケーション

11X More HPC Performance  in Four Years

HPC アプリケーションで最大 1.8 倍高速なパフォーマンス

Quantum Espresso​

Up to 1.8X Higher Performance  for HPC Applications

ハイパフォーマンス データ分析

ビッグ データ分析ベンチマークで CPU より最大 83 倍、A100 4 GB より 2 倍高速

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

データ サイエンティストは、大量のデータセットを分析し、可視化し、インサイトに変えられる能力を求めています。しかしながら、スケールアウト ソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。

A100 を搭載したアクセラレーテッド サーバーなら、大容量メモリ、2 TB/秒を超えるメモリ帯域幅、NVIDIA® NVLink® と NVSwitch によるスケーラビリティに加えて、必要な計算処理能力を提供し、データ分析ワークロードに対応することができます。InfiniBand、NVIDIA Magnum IO 、オープンソース ライブラリの RAPIDS スイート (GPU 活用データ分析用の RAPIDS Accelerator for Apache Spark を含む) と組み合わせることで、NVIDIA データ センター プラットフォームは前例のないレベルのパフォーマンスと効率性で大規模なデータ分析ワークロードを高速化します。

A100 80GB はビッグ データ分析ベンチマークで、CPU の 83 倍高いスループット、A100 40GB では 2 倍高いスループットでインサイトをもたらします。データセット サイズが爆発的に増える昨今のワークロードに最適です。

企業で効率的に利用

マルチインスタンス GPU (MIG) による 7 倍の推論スループット

BERT 大規模推論

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

A100 と MIG の組み合わせにより、GPU 活用インフラストラクチャを最大限に利用できます。MIG を利用することで、A100 GPU を 7 つもの独立したインスタンスに分割できます。複数のユーザーが GPU アクセラレーションを利用できます。A100 40GB では、各 MIG インスタンス に最大 5GB まで割り当てることができ、A100 80GB のメモリ容量が増えたことで、そのサイズは 2 倍の 10GB になります。

MIG は、Kubernetes、コンテナー、ハイパーバイザーベースのサーバー仮想化. と連動します。MIG を利用することで、インフラストラクチャ管理者はあらゆるジョブに適切なサイズの GPU を提供し、サービスの品質 (QoS) を保証できます。アクセラレーテッド コンピューティング リソースをすべてのユーザーに届けることが可能です。

Get the Most From Your Systems

An NVIDIA-Certified System, comprising of A100 and NVIDIA Mellanox SmartnNICs and DPUs is validated for performance, functionality, scalability, and security allowing enterprises to easily deploy complete solutions for AI workloads from the NVIDIA NGC catalog.

データ センター GPU

NVIDIA A100 for HGX

HGX 向け NVIDIA A100

あらゆるワークロードで究極のパフォーマンス。

NVIDIA A100 for PCIe

PCIe 向け NVIDIA A100

あらゆるワークロードに対応する高い万能性。

仕様

  A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
FP64 9.7 TFLOPS
FP64 Tensor コア 19.5 TFLOPS
FP32 19.5 TFLOPS
Tensor Float 32 (TF32) 156 TFLOPS | 312 TFLOPS*
BFLOAT16 Tensor コア 312 TFLOPS | 624 TFLOPS*
FP16 Tensor コア 312 TFLOPS | 624 TFLOPS*
INT8 Tensor コア 624 TOPS | 1248 TOPS*
GPU メモリ 40GB HBM2 80GB HBM2e 40GB HBM2 80GB HBM2e
GPU メモリ帯域幅 1,555GB/秒 1,935GB/秒 1,555GB/秒 2,039GB/秒
最大熱設計電力 (TDP) 250W 300W 400W 400W
マルチインスタンス GPU 最大 7 基の MIG @ 5GB 最大 7 基の MIG @ 10GB 最大 7 基の MIG @ 5GB 最大 7 基の MIG @ 10GB
フォーム ファクター PCIe SXM
相互接続 NVIDIA® NVLink® ブリッジ 2 GPU 用: 600GB/秒 **
PCIe Gen4: 64GB/秒
NVLink: 600GB/秒
PCIe Gen4: 64GB/秒
サーバー オプション 1~8 GPU 搭載のパートナーおよび NVIDIA-Certified Systems NVIDIA HGX A100 - 4、8、16 GPU 搭載のパートナーおよび NVIDIA-Certified Systems 8 GPU 搭載の NVIDIA DGX A100
 

最新の MLPerf ベンチマークを見る

NVIDIA Ampere アーキテクチャの詳細

NVIDIA A100 GPU における NVIDIA Ampere アーキテクチャとその実装の新機能については、この技術の詳細解説をご覧ください。