NVIDIA Ampere
アーキテクチャ

世界最高クラスのパフォーマンスを誇る、エラスティックなデータ センターの心臓部

現代のデータ センターにおける AI と HPC のコア

現代のダヴィンチであり、アインシュタインであるサイエンティスト、研究者、エンジニアたちは、AI とハイ パフォーマンス コンピューティング (HPC) を利用し、科学、産業、ビッグ データにおける世界で最も重要な課題を解決しようとしています。その一方で、企業や業界全体が、オンプレミスとクラウドの両方で膨大なデータセットから新しいインサイトを引き出すために、AI のパワーを活用しようとしています。エラスティック コンピューティングの時代に合わせて設計された NVIDIA Ampere アーキテクチャは、規模を問わず比類なき高速化を実現することで、イノベーター達の日常業務の遂行を支援し、次の大きな飛躍をもたらします。

画期的な技術革新

540 億個のトランジスターを搭載した NVIDIA Ampere は、これまでに製造されてきた中で最大の 7 ナノメートル (nm) チップであり、主に 5 つの画期的な技術革新を特徴としています。 

第 3 世代 Tensor コア

第 3 世代 Tensor コア

NVIDIA Volta™ アーキテクチャで最初に導入された NVIDIA Tensor コア テクノロジは、AI に劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。 NVIDIA Ampere アーキテクチャはこの革新的技術を基盤としており、新しい精度である Tensor Float (TF32) と 64 ビット浮動小数点数 (FP64) を提供し、AI の導入を簡素化して導入期間を短縮し、Tensor コアのパワーを HPC までもたらします。

TF32 は FP32 と同じように動作し、コード変更なしに、AI を最大 20 倍スピードアップします。NVIDIA Automatic Mixed Precision を利用すれば、研究者はわずか数行のコードを追加するだけで、 FP16 を活用した混合精度演算により、さらに 2 倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4 に対応していることで、NVIDIA A100 Tensor コア GPU の Tensor コアは、AI のトレーニングと推論の両方に対する、極めて多面的なアクセラレータとなります。また、Tensor コアのパワーを HPC にもたらす A100 では、IEEE 準拠の FP64 精度行列演算が完全に動作します。

マルチインスタンス GPU (MIG)

すべての AI と HPC アプリケーションが高速化の恩恵を受けることができますが、アプリケーションによっては A100 GPU のフル パフォーマンスを必要としない場合もあります。MIG を利用すると、1 つの A100 を 7 個もの GPU インスタンスに分割できます。各インスタンスは完全に分離され、ハードウェア レベルで保護され、専用の高帯域幅メモリ、キャッシュ、計算コアを与えられます。開発者は、大小を問わずあらゆるアプリケーションで画期的な高速化を体験できるようになったほか、サービスの品質が保証されるようにもなりました。また、IT 管理者は、適正規模の GPU アクセラレーションを提供して最適な使用率を実現し、ベアメタル環境と仮想化環境の両方ですべてのユーザーとアプリにアクセスを拡張できます。

マルチインスタンス GPU (MIG)

構造的疎性

現代の AI ネットワークは複雑で、その規模をさらに拡大しています。パラメーターの数は 100 万単位であり、10 億単位になることもあります。正確な予測や推論のため必ずしも全てのパラメーターが必要とは限りません。一部のパラメーターをゼロに変換することで、精度を下げることなくモデルの疎性を高められます。 A100 の Tensor コアでは、疎なモデルのパフォーマンスを最大 2 倍にすることができます。構造的疎性は AI 推論で特に効果を発揮しますが、モデル トレーニングのパフォーマンス向上にも利用できます。 

構造的疎性
今までより賢く、速いメモリ

今までより賢く、速いメモリ

A100 によって、データ センターで膨大な量の計算が行われます。計算エンジンを常に完全活用するため、A100 はこのクラスで最高となる毎秒 1.5 テラバイト (TB/sec) のメモリ帯域幅を備えています。これは、前世代に比べ、67% の増加です。また、A100 では、オンチップ メモリが非常に多く、前世代の 7 倍以上となる 40 メガバイト (MB) のレベル 2 キャッシュも含まれ、計算パフォーマンスを最大まで上げます。

エッジで集中アクセラレーション

NVIDIA Ampere アーキテクチャと NVIDIA EGX™ コンバージド アクセラレータの ConnectX-6 Dx SmartNIC (NVIDIA Mellanox) との組み合わせにより、エッジで生成される大量のデータを処理する、これまでにないアクセラレーション機能がコンピューティングとネットワークにもたらされます。Mellanox SmartNIC には最大で毎秒 200 ギガビット (Gb/秒) のライン レートで復号するセキュリティ オフロードが含まれており、GPUDirect™ は AI 処理用にビデオ フレームを直接 GPU メモリへ転送します。EGX コンバージド アクセラレータにより、ビジネスはより安全かつ効率的に、エッジ デバイスの AI デプロイを高速化することができます。

Converged Acceleration at the Edge

NVIDIA Ampere アーキテクチャの詳細

NVIDIA Ampere アーキテクチャとその NVIDIA A100 GPU における実装に関する最新情報については、このウェビナーにご参加ください。