AI インフラストラクチャは、AI モデルとアプリケーションの開発、デプロイ、管理を支援するために設計されています。 AI インフラストラクチャには、AI ワークロードのパフォーマンス、拡張性、効率を向上させるために特別に構築されたハードウェアとソフトウェアの両方の技術が含まれます。
AI インフラストラクチャには、コンピューティング、データ、ソフトウェア フレームワーク、運用パイプライン、ネットワーキングをシームレスに統合する包括的なフルスタック アプローチが必要です。 これにより、データ取り込み、モデル開発から推論、継続的な改善まで、AI ライフサイクルの各段階を効率的にデプロイ、管理できるようになり、より迅速なイノベーションとスケーラブルなパフォーマンスを実現します。 これらのコンポーネントには、以下が含まれます。
AI インフラストラクチャは、GPUなどの専用ハードウェア、高速インターコネクト (InfiniBand やオプティカル イーサネットなど)、最適化されたソフトウェア スタックを使用し、トレーニングと推論ワークロードの高スループットと低遅延の要求を処理するために特別に構築されています。大電力と冷却要件が高い高密度コンピューティングを使用する際、全体を効率的に稼働させるための管理ソフトウェアを備えた機械、電気、液冷システムが必要です。対照的に、従来の IT インフラストラクチャは、汎用コンピューティング、ストレージ、ネットワーキング タスク向けに設計されており、データベース、電子メール、エンタープライズ ワークロードなどのアプリケーションを支援し、通常は CPU と従来のイーサネット ネットワークに依存していました。 基本的に、AI インフラストラクチャは多数の GPU コアで数千もの操作の同時実行に最適化されており、IT インフラストラクチャはシングルサーバー ワークロード全体の幅広い互換性に焦点を当てています。
AI ファクトリーは、一連の相互接続されたプロセスとコンポーネントを通じて運用され、それぞれが AI モデルの作成とデプロイを最適化するために設計されています。
AI ファクトリー、特に AI リーズニングモデルを実行するファクトリーに必要な AI インフラストラクチャには、前述のすべてのコンポーネントに加えて、エネルギー効率が高く交換可能な技術が含まれています。ソフトウェア コンポーネントは、モジュール式で拡張が可能で、API により、あらゆるパーツが一体化したシステムに統合されています。 この組み合わせにより、継続的なアップデートと成長が保証され、AI の進歩に合わせてビジネスが進化することが可能になります。
AI ファクトリー向け AI インフラストラクチャは、エージェント型 AI、フィジカル AI、HPC、AI ワークロードのライフサイクル全体をサポートするために設計された、高性能コンピューティング、ストレージ、ネットワーキング、電源および冷却コンポーネントの緊密に統合されたスタックです。データの取り込みと前処理からトレーニング、ファインチューニング、リアルタイム推論までを支える設計となっています。 通常、GPU アクセラレーテッド サーバー、InfiniBand や Ethernet などの高帯域幅低遅延のインターコネクト、高速ストレージ システム、配電システム、冷却システム、オーケストレーション ソフトウェアなどが含まれます。 拡張性と効率性を重視して構築されたこのインフラストラクチャは、AI 工場のデジタル組み立てラインを形成し、ますますインテリジェントなモデルの継続的な反復とデプロイを可能にします。
AI には、従来の企業 IT インフラストラクチャからの脱却が求められます。これは、並列処理とアクセラレーテッド コンピューティングの能力に大きく依存する専用のハードウェア、ソフトウェア、AI アルゴリズムが必要となるためです。従来の高速化されていないデータ センターは、迅速にアクセスできる膨大な量のデータの処理と分析を伴う AI ワークロードの増大する需要を効果的に処理できません。
現代の AI インフラストラクチャには、大量のデータを効率的に保存および検索できる大容量で高性能なストレージ ソリューションが求められています。 そのため、既存のストレージ インフラストラクチャの用途を変えようとするよりも、AI 向けに特化した専用ストレージ インフラストラクチャを構築することが不可欠となっています。 高速化されたインフラストラクチャ向けに特別に構築された AI ソフトウェアは、コストを削減しながら、AI パイプライン全体で最高のスループットを実現するために必要です。
将来における未知のワークロードに対応するインフラストラクチャに投資することは、長期的な AI 戦略の重要な要素です。 さらに、GPUによる並列処理を活用したアクセラレーテッドコンピューティングにより、高度なアプリケーションの処理速度が向上し、長期的なエネルギー効率の改善とコスト削減が実現します。
クラウドベースのソリューションは、取得コストの削減と資本的支出 (CapEx) を運用的支出 (OpEx) への転換により、AI の取り組みを始めるためのコスト効率の高い方法を提供します。 しかし、クラウド ソリューションは初期コストを削減する一方で、長期的な支出が増大する可能性があります。 IT リーダーは、時間の経過とともに総所有コスト (TCO) を評価し、データ ストレージ、コンピューティング リソース、継続的なメンテナンスなどの要因を考慮する必要があります。
一般的に、初期の TCO ではなく、投資収益率 (ROI) を重要な指標として考慮することが重要です。 AI インフラストラクチャを構築するには、専用リソース、慎重な計画、クラウドおよびオンプレミス ソリューションの検討が必要です。 フルスタックに最適化されたテクノロジと戦略を適切に組み合わせることで、組織は AI インフラストラクチャの構築に関連する課題を乗り越え、成功した成果を推進できます。
開始するには、データ センターと AI インフラストラクチャ ハブをご覧ください。 そこには、NVIDIA のフルスタック ソリューションでデータ センターと AI ファクトリーを最適化するためのリソースが用意されています。