This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

NVIDIA A100 Tensor コア GPU

規模を問わず、前例のない加速

現代で最も重要な作業を高速化

NVIDIA A100 Tensor コア GPU は、あらゆる規模で前例のない高速化を実現し、AI、データ分析、および HPC 向けの世界で最も性能能力の高いエラスティックデータセンターを強化します。NVIDIA Ampere アーキテクチャを搭載した A100 は、NVIDIA データセンタープラットフォームのエンジンです。A100 は、前世代に比べて最大 20 倍の性能を提供し、7 つの GPU インスタンスに分割して、変化する需要に動的に対応することができます。A100 80GB は、2 TB/秒を超える世界最速のメモリ帯域幅を誇り、最大規模のモデルとデータセットを実行することができます。

NVIDIA A100 データシート (PDF 640 KB)

NVIDIA A100 80GB PCIe 製品概要 (PDF 380 KB)

NVIDIA A100 40GB PCIe 製品概要 (PDF 332 KB)

AI のためのエンタープライズ対応ソフトウェア

NVIDIA EGX™ プラットフォームには、最適化されたソフトウェアが含まれており、インフラストラクチャ全体にアクセラレーテッドコンピューティングを提供します。NVIDIA AI Enterprise を導入すると、企業は、NVIDIA-Certified Systems 搭載の VMware vSphere で実行するために NVIDIA が最適化し、認定し、サポートする AI およびデータ分析ソフトウェアからなるクラウドネイティブのエンドツーエンドスイートを利用することができます。NVIDIA AI Enterprise には、最新のハイブリッドクラウドにおける AI ワークロードの迅速な展開、管理、拡張を可能にする主要な NVIDIA テクノロジが含まれます。

詳細を見る

AI と HPC の最もパワフルなエンドツーエンドデータセンタープラットフォーム

A100 は、ハードウェア、ネットワーキング、ソフトウェア、ライブラリ、最適化された AI モデル、 NGC^™ のアプリケーションにわたる構成要素を組み込んだ NVIDIA の完全データセンターソリューションスタックの一部です。データセンター向けとして最もパワフルな AI/HPC 用エンドツーエンドプラットフォームであり、研究者は現実世界で成果をもたらし、ソリューションを大規模な運用環境に展開できます。

Ampere のメイキング映像

ビデオを見る

ディープラーニングトレーニング

最大級のモデルで最大 3 倍高速な AI トレーニング

DLRM トレーニング

Up to 3X Higher AI Training on Largest Models

DLRM on HugeCTR framework, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.

対話型 AI といった次のレベルの課題に挑む AI モデルは、爆発的に複雑化しています。モデルのトレーニングには、大規模な計算処理能力とスケーラビリティが必要になります。

NVIDIA A100 の Tensor コアと Tensor Float (TF32) を利用することで、NVIDIA Volta と比較して最大 20 倍のパフォーマンスがコードを変更することなく得られます。加えて、Automatic Mixed Precision と FP16 の活用でさらに 2 倍の高速化が可能になります。NVIDIA^® NVLink^®、NVIDIA NVSwitch^™、PCI Gen4、NVIDIA^® Mellanox^® InfiniBand^®、NVIDIA Magnum IO^™ SDK と組み合わせることで、数千個もの A100 GPU まで拡張できます。

2,048 基の A100 GPU という大規模な環境で、BERT などのトレーニングワークロードを、世界記録となる 1 分未満で解決できます。

ディープラーニングレコメンデーションモデル (DLRM) といった大きなデータテーブルを持つ最大級のモデルの場合、A100 80GB であれば、ノードあたり最大 1.3 TB の統合メモリに到達し、A100 40GB の最大 3 倍のスループットの増加が可能です。

NVIDIA は、AI トレーニングの業界標準ベンチマークである MLPerf で複数のパフォーマンス記録を打ち立て、そのリーダーシップを確立しました。

トレーニングに活用可能な A100 の詳細を見る

ディープラーニング推論

A100 には、推論ワークロードを最適化する画期的な機能が導入されています。FP32 から INT4 まで、あらゆる精度を加速します。マルチインスタンス GPU (MIG) テクノロジでは、1 個の A100 で複数のネットワークを同時に動作できるため、コンピューティングリソースの使用率が最適化されます。また、構造化スパース性により、A100 による数々の推論性能の高速化に加え、さらに最大 2 倍のパフォーマンスがもたらされます。

BERT などの最先端の対話型 AI モデルでは、A100 は推論スループットを CPU の最大 249 倍に高めます。

メモリ容量の大きな A100 80GB では各 MIG のサイズが 2 倍になります。自動音声認識用の RNN-T といった、バッチサイズが制約された非常に複雑なモデルでは、A100 40GB に比べて最大 1.25 倍のスループットが得られます。

市場をリードする NVIDIA のパフォーマンスは MLPerf 推論で実証されました。A100 は 20 倍のパフォーマンスを実現し、そのリードをさらに広げます。

推論に活用可能な A100 の詳細を見る

CPU と比較して最大 249 倍高速な
AI 推論パフォーマンス

BERT 大規模推論

他のベンチマークを見る

Up to 249X Higher AI Inference Performance Over CPUs

BERT-Large Inference | CPU only: Xeon Gold 6240 @ 2.60 GHz, precision = FP32, batch size = 128 | V100: NVIDIA TensorRT^™ (TRT) 7.2, precision = INT8, batch size = 256 | A100 40GB and 80GB, batch size = 256, precision = INT8 with sparsity.

A100 40GB と比較して最大 1.25 倍高速な
AI 推論パフォーマンス

RNN-T 推論: 単一のストリーム

Up to 1.25X Higher AI Inference Performance Over A100 40GB

MLPerf 0.7 RNN-T measured with (1/7) MIG slices. Framework: TensorRT 7.2, dataset = LibriSpeech, precision = FP16.

ハイパフォーマンスコンピューティング

次世代の発見を解き明かすため、科学者たちは、私たちを取り巻いている世界をより良く理解するために、シミュレーションに関心を向けています。

NVIDIA A100 は、GPU の導入以降で最大のHPCパフォーマンスの飛躍を実現するために、Tensor コアを導入しています。80 GB の最速の GPU メモリと組み合わせることで、研究者は 10 時間かかる倍精度シミュレーションをA100 で 4 時間たらすに短縮できます。HPC アプリケーションで TF32 を活用すれば、単精度の密行列積演算のスループットが最大 11 倍向上します。

大規模データセットを扱う HPC アプリケーションでは、メモリが追加された A100 80GB により、マテリアルシミュレーションの Quantum Espresso において最大 2 倍のスループットの増加を実現します。この膨大なメモリと前例のないメモリ帯域幅により、A100 80GB は次世代のワークロードに最適なプラットフォームとなっています。

HPC アプリケーションにおける最新の GPU 性能を見る

4 年間で 11 倍の HPC パフォーマンス

上位 HPC アプリケーション

Geometric mean of application speedups vs. P100: Benchmark application: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large Fine Tuner], Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | GPU node with dual-socket CPUs with 4x NVIDIA P100, V100, or A100 GPUs.

HPC アプリケーションで最大 1.8 倍高速なパフォーマンス

Quantum Espresso

他のベンチマークを見る

Up to 1.8X Higher Performance for HPC Applications

Quantum Espresso measured using CNT10POR8 dataset, precision = FP64.

ハイパフォーマンスデータ分析

ビッグデータ分析ベンチマークで CPU より最大 83 倍、A100 4 GB より 2 倍高速

Up to 83X Faster than CPU, 2X Faster than A100 40GB on Big Data Analytics Benchmark

Big data analytics benchmark | 30 analytical retail queries, ETL, ML, NLP on 10TB dataset | CPU: Intel Xeon Gold 6252 2.10 GHz, Hadoop | V100 32GB, RAPIDS/Dask | A100 40GB and A100 80GB, RAPIDS/Dask/BlazingSQL

データサイエンティストは、大量のデータセットを分析し、可視化し、インサイトに変えられる能力を求めています。しかしながら、スケールアウトソリューションは行き詰まることが多々あります。複数のサーバー間でデータセットが分散されるためです。

A100 を搭載したアクセラレーテッドサーバーなら、大容量メモリ、2 TB/秒を超えるメモリ帯域幅、NVIDIA^® NVLink^® と NVSwitch^™ によるスケーラビリティに加えて、必要な計算処理能力を提供し、データ分析ワークロードに対応することができます。InfiniBand、NVIDIA Magnum IO^™ 、オープンソースライブラリの RAPIDS^™ スイート (GPU 活用データ分析用の RAPIDS Accelerator for Apache Spark を含む) と組み合わせることで、NVIDIA データセンタープラットフォームは前例のないレベルのパフォーマンスと効率性で大規模なデータ分析ワークロードを高速化します。

A100 80GB はビッグデータ分析ベンチマークで、CPU の 83 倍高いスループット、A100 40GB では 2 倍高いスループットでインサイトをもたらします。データセットサイズが爆発的に増える昨今のワークロードに最適です。

データ分析の詳細を見る

企業で効率的に利用

マルチインスタンス GPU (MIG) による 7 倍の推論スループット

BERT 大規模推論

7X Higher Inference Throughput with Multi-Instance GPU (MIG)

BERT Large Inference | NVIDIA TensorRT^™ (TRT) 7.1 | NVIDIA T4 Tensor Core GPU: TRT 7.1, precision = INT8, batch size = 256 | V100: TRT 7.1, precision = FP16, batch size = 256 | A100 with 1 or 7 MIG instances of 1g.5gb: batch size = 94, precision = INT8 with sparsity.

A100 と MIG の組み合わせにより、GPU 活用インフラストラクチャを最大限に利用できます。MIG を利用することで、A100 GPU を 7 つもの独立したインスタンスに分割できます。複数のユーザーが GPU アクセラレーションを利用できます。A100 40GB では、各 MIG インスタンスに最大 5GB まで割り当てることができ、A100 80GB のメモリ容量が増えたことで、そのサイズは 2 倍の 10GB になります。

MIG は、Kubernetes、コンテナー、ハイパーバイザーベースのサーバー仮想化. と連動します。MIG を利用することで、インフラストラクチャ管理者はあらゆるジョブに適切なサイズの GPU を提供し、サービスの品質 (QoS) を保証できます。アクセラレーテッドコンピューティングリソースをすべてのユーザーに届けることが可能です。

MIG の詳細を見る

Get the Most From Your Systems

An NVIDIA-Certified System, comprising of A100 and NVIDIA Mellanox SmartnNICs and DPUs is validated for performance, functionality, scalability, and security allowing enterprises to easily deploy complete solutions for AI workloads from the NVIDIA NGC catalog.

Learn More

データセンター GPU

HGX 向け NVIDIA A100

あらゆるワークロードで究極のパフォーマンス。

PCIe 向け NVIDIA A100

あらゆるワークロードに対応する高い万能性。

仕様

	A100 80GB PCIe	A100 80GB SXM
FP64	9.7 TFLOPS
FP64 Tensor コア	19.5 TFLOPS
FP32	19.5 TFLOPS
Tensor Float 32 (TF32)	156 TFLOPS \| 312 TFLOPS*
BFLOAT16 Tensor コア	312 TFLOPS \| 624 TFLOPS*
FP16 Tensor コア	312 TFLOPS \| 624 TFLOPS*
INT8 Tensor コア	624 TOPS \| 1248 TOPS*
GPU メモリ	80GB HBM2e	80GB HBM2e
GPU メモリ帯域幅	1,935 GB/秒	2,039 GB/秒
最大熱設計電力 (TDP)	300W	400W ***
マルチインスタンス GPU	最大 7 基の MIGs @ 10GB	最大 7 基の MIGs @ 10GB
フォームファクター	PCIe デュアルスロット空冷またはデュアルスロット液冷	SXM
相互接続	NVIDIA^® NVLink^® Bridge ブリッジ 2 GPU 用: 600GB/秒 ** PCIe Gen4: 64GB/秒	NVLink: 600 GB/秒 PCIe Gen4: 64 GB/秒
サーバーオプション	1～8 GPU 搭載のパートナーおよび NVIDIA-Certified Systems™	NVIDIA HGX™ A100 - 4、8、16 GPU 搭載のパートナーおよび NVIDIA-Certified Systems 8 GPU 搭載の NVIDIA DGX™ A100

* 疎性あり
** HGX A100 サーバーボードを経由した SXM4 GPU; NVLink ブリッジ経由の PCIe GPU (最大 2 基の GPU 向け)
*** 標準構成で TDP 400W。HGX A100-80GB のカスタムサーマルソリューション (CTS) SKU は、最大 500W の TDP に対応可能です。

最新の MLPerf ベンチマークを見る

結果を確認する

NVIDIA Ampere アーキテクチャの詳細

NVIDIA A100 GPU における NVIDIA Ampere アーキテクチャとその実装の新機能については、この技術の詳細解説をご覧ください。

ホワイトペーパーを見る