NVIDIA Grace CPU Superchip

NVIDIA Grace CPU

最新のデータセンター向けに革新をもたらすCPU。

現代のAIデータセンターに求められる性能と電力効率の要件を満たすように設計されています。

NVIDIA Grace™ CPU は、大量のデータを高速に処理し、最大限の電力効率で知的情報を生成するという、新しい形態のデータセンター向けに設計されています。これらのデータセンターは、AI、データ解析、ハイパースケール クラウド アプリケーション、ハイパフォーマンス コンピューティング (HPC) など、多様なワークロードを処理します。最も要求の厳しいデータ センターのニーズに応えるため、Grace は現在の主要サーバーと比較して、ワットあたり 2 倍の性能、2 倍の実装密度、そして業界最高水準のメモリ帯域幅を実現ます。

Grace CPU は、高性能かつ電力効率に優れたArm®Neoverse™V2 コアを72基搭載し、3.2TB/秒のバイセクション帯域幅を実現する NVIDIA 独自のScalable Coherency Fabric (SCF)で相互接続されています。これは従来CPU の2倍に相当し、Armエコシステムとの完全な互換性を維持しながら、最大限のパフォーマンスを引き出します。Grace は、サーバークラスの高速 LPDDR5X メモリを採用した初のデータセンター CPUであり、広帯域のメモリサブシステムを通じて、従来のDDRメモリと同様のコストで、最大500GB/秒の帯域幅を5分の1の消費電力で実現します。

開発者向け NVIDIA Grace CPU

NVIDIA Grace CPU 製品群向けに提供されている開発ツールをご覧ください。各種リソース、手順書、ドライバなどを入手できます。

NVIDIA Grace CPU の特長をご紹介。

NVIDIA Grace CPU Superchip

Grace CPU スーパーチップは、2つのGrace CPUチップで構成されており、それらはNVIDIA NVLink™ Chip-to-Chip (C2C) により、900 GB/sの帯域幅でコヒーレント接続されています。1つのモジュールに144基のNeoverse V2 コアを集積し、TB/秒のメモリ帯域幅を実現するサーバークラスの LPDDR5X メモリを搭載しています。 Grace CPU スーパーチップは、2 ソケット サーバーの中核をコンパクトなモジュールに集約しており、DDR5 メモリを搭載した従来のサーバー CPU と同じ消費電力で2倍の性能を発揮します。

NVIDIA Grace CPU C1

NVIDIA Grace C1 は、ハイパースケール クラウド、CDN、ストレージ、通信事業者(Telco)などのスケーラブルかつエッジ指向のプラットフォーム向けに最適化されたシングルソケット構成の高性能サーバー プラットフォームです。性能や帯域幅を犠牲にすることなく、高性能なエッジ環境にも対応します。本プラットフォームは、同等のx86 プラットフォームが400W超を要するのに対し、Grace CPUおよびLPDDR5X メモリ構成で140W~250Wまで柔軟に構成可能でありながら、ハイエンドx86クラスの性能を発揮します。NVIDIAが設計したスケーラブルコヒーレンスファブリックにより、Grace CPUは主要なx86 プラットフォームと比較して2倍のエネルギー効率を実現します。

ハイライト

Grace CPU により、データセンターの処理能力を2倍、あるいはエネルギー使用量を半減可能

Graph Analytics

3x

データ分析

2x

天気

2x

マイクロサービス

1.6x

NVIDIA Grace Superchip(LPDDR5X) メモリ480GB、AMD EPYC 9654 DDR5 メモリ768 GB。 OS: Ubuntu 22.04 コンパイラー: 特記がない限りGCC12.3を使用。エネルギー効率の評価に用いる電力には、CPUとメモリの実測消費電力が含まれます。グラフ解析:GAPベンチマーク スイート にBFS (幅優先探索)arXiv:1508.03619 [cs.DC], 2015。 データ分析 : HiBench+K-means Spark (HiBench 7.1.1、Hadoop 3.3.3、Spark 3.3.0; Grace: NVHPC 24.5、x86: Intel 2021.4) 気象シュミレーション:ICON QUBICC 80 km 解像度 NVHPC 24.5 (Grace) ICC 2021.4 (x86) マイクロサービス: Google Protobufs (コミット 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N インスタンスを並列に実行)

Graph Analytics

NVIDIA Grace CPU スーパーチップは、Arm Neoeverse V2 コアをNVIDIA 独自のスケーラブル コヒーレンス ファブリックで接続し、コア間通信や同期処理の負担が高い、GapBS の幅優先探索(Breadth-First Search)といったワークロードにおいて、極めて高速なパフォーマンスを発揮します。NVIDIA Grace は、主要な x86 システムと比較して、サーバーレベルで2 倍以上の性能と3 倍のエネルギー効率を実現します。

データ分析

データの増加が続く中、企業は競争力を維持するために、自社データからの学習を最大化する必要があります。HiBench スイートは、ナレッジディスカバリおよびデータマイニングのための K-means クラスタリングをテストし、NVIDIA Grace CPU に搭載された高帯域幅かつ低消費電力のメモリを活用します。 Grace CPU は、現在市場に出回っている主要x86 CPU と比較して、2 倍以上のエネルギー効率を実現します。

天気

気象予測モデルは、ハイパフォーマンス コンピューティング (HPC) の重要なユースケースであり、気候変動によって変化する気象パターンを理解し、対応するために不可欠です。 Grace CPU に搭載された高帯域幅で省電力なLPDDR5X メモリは、約 16W で最大 500 GB/秒の帯域幅を実現し、同じ電力枠内で既存x86 ソリューションと比較して、ほぼ2倍の処理を可能にします。

マイクロサービス

マイクロサービスは、小規模で独立したサービスの集合体であり、データセンターが需要に応じて容易にスケーリングできるようにします。また、マイクロサービスは、アプリケーション全体に影響を与えることなく、個々のサービスを柔軟に管理できる利点を兼ね備えています。Google Protobufs は、マイクロサービスの実行に不可欠なシステム間のデータ交換に必要なデータのシリアライズおよびパースを、システムがどれだけ高速に行えるかを測定します。NVIDIA Grace CPU の高い性能と電力効率により、データセンターのスループットを最大化する業界トップクラスのパフォーマンスと省電力を実現します。

特長

技術のブレークスルー

Arm Neoverse V2 コア

Grace CPU の中核を成すのは、Armが提供する現時点でも最も高性能なデータセンター向けCPUコアであるArm Neoverse V2 コアです。 Neoverse V2 コアは、コア単位で業界トップクラスの性能を発揮するよう最適化されており、従来の CPU と比較して卓越した電力効率を実現します。 Grace CPU は、72 コアを統合しており、LPDDR5X メモリおよびNVIDIAのスケーラブル コヒーレンシ ファブリックと組み合わせることで、主要なx86 CPU と比べて電力あたりで2倍の性能を実現します。

NVIDIA スケーラブルなコヒーレンス ファブリック

NVIDIA Scalable Coherency Fabric (SCF) は、コア数および帯域幅のスケーリングにおける課題に対応するために、NVIDIA が設計したメッシュファブリックおよび分散キャッシュ アーキテクチャであり、電力効率および面積効率に優れた構成を実現します。SCF は、CPUコア、メモリ、システムI/O間のデータフローを維持するために、従来のCPUの2倍となる合計3.2TB/秒超のバイセクション帯域幅を提供します。SCF は、グラフ解析のようなデータ移動量の多いアプリケーションにおけるボトルネックを低減し、NVIDIA Grace は主要な x86 サーバーと比較して最大 2 倍の性能を発揮します。

LPDDR5X メモリ

NVIDIA Grace は、エラー訂正コード (ECC) などの機構によってサーバークラスの信頼性を確保しつつ、LPDDR5X メモリを採用した初のサーバー CPUです。 NVIDIA Grace に搭載された LPDDR5X メモリは、コスト、消費電力、帯域幅、容量のバランスに優れています。わずか約 16W で最大 500 GB/秒の帯域幅を実現し、これは従来のDDR5 メモリの およそ 5 分の1の消費電力となります。

シングルソケットおよびデュアルソケット

NVIDIA Grace CPU ポートフォリオには、144 基の Neoverse V2 コアと最大 960GB のLPDDR5X メモリを1つのコンパクトなモジュールに集約し、CPU およびメモリ全体でわずか500Wの消費電力で動作する、デュアルソケット サーバーの中核を担うGrace スーパーチップが含まれています。さらなる柔軟性を提供するため、Grace CPU C1 は、72 基の Neoverse V2 コアを超高速NVIDIAスケーラブル、コヒーレンス、ファブリックで接続し、クラウド、ストレージ、エッジ、通信業者向けに最適化されたシングルソケット構成で、従来のx86 サーバーと比較して、ワットあたりで最大2倍の性能を実現します。

ニュース

NVIDIA Grace CP、世界最高水準のデータセンター性能と革命的な電力効率を実現

NVIDIA GraceCPUは、画期的な電力効率を実現し、データセンター規模での性能最適化を追求する、新しいタイプの高性能データセンター向けCPUとして、NVIDIAによって設計されました。

NVIDIA Grace CPU は、Armソフトウェア エコシステムと統合

データセンターがますます厳しい電力制約に直面する中で、可能な限り多くのワークロードを高速化し、残りを極めて高確率な計算リソースで実行することが極めて重要です。 Grace CPU は、アクセラレーテッド タスクと CPU 単体によるタスクの両方を処理できるように最適化されており、従来の CPU と同じ消費電力で最大 2 倍の性能を発揮します。

注目事例: Petrobras、NVIDIA Grace CPU を活用して貯留層シミュレーション線形ソルバーを高速化

本ブログでは、NVIDIA Grace CPU がこのワークフロー内での線形方程式系の解法において優れた性能を発揮することを紹介しています。Petrobrasは、他のx86 ベースのCPUと比較して、最大4.5倍の高速な解決時間、4.3倍のエネルギー効率、1.5倍のスケーラビリティを達成しました。

仕様

Grace CPU の仕様

  NVIDIA Grace CPU C1 NVIDIA Grace CPU Superchip
Configuration 1x Grace CPU 2x Grace CPU
Core Count 72 Arm Neoverse V2 Cores with 4x 128b SVE2 144 Arm Neoverse V2 Cores with 4x 128b SVE2
L1 cache 64KB i-cache + 64KB d-cache per core 64KB i-cache + 64KB d-cache per core
L2 cache 1MB per core 1MB per core
L3 cache 114MB 228MB
LPDDR5X size 120GB, 240GB and 480GB on-module memory options available 240GB, 480GB and 960GB options available
Memory bandwidth Up to 384 GB/s for 480GB
Up to 512 GB/s for 120GB, 240GB
Up to 768 GB/s for 960GB
Up to 1024 GB/s for 240GB, 480GB
NVLink-C2C bandwidth n/a Up to 900 GB/s
PCIe Links Up to 4x PCIe Gen 5x16 with option to bifurcate Up to 8x PCIe Gen 5x16 with option to bifurcate