より速く、より正確な AI 推論

AI 対応のアプリケーションとサービスで画期的なパフォーマンスを推進します。

はじめに
メリット
プラットフォーム
業界
関連情報

はじめに
メリット
プラットフォーム
業界
関連情報

AI は推論によって結果を出し、あらゆる業界のイノベーションを推進します。 AI モデルの規模、複雑さ、多様性は急速に拡大しており、可能性の限界を押し上げています。効果的な AI 推論の実現に向けて、エンドツーエンドの AI ライフサイクルをサポートするフルスタックのアプローチと、目標達成を支えるツールが今求められています。

NVIDIA AI Enterprise で次世代 AI 推論を実現

NVIDIA は、クラウド、データセンター、ネットワークエッジ、組み込みデバイスにおいて、次世代の AI 推論に不可欠なパフォーマンス、効率性、応答性を提供する製品、インフラ、サービスのエンドツーエンドのスタックを提供しています。それらは、AI に関するさまざまなレベルの専門知識と経験を持つ MLOps エンジニア、データサイエンティスト、アプリケーション開発者、ソフトウェアインフラエンジニア向けに設計されています。

NVIDIA のフルスタックで実現するアーキテクチャは、AI アプリケーションが最適なパフォーマンス、より少ないサーバー、より少ない電力で展開されることを保証し、劇的に低いコストでより迅速な洞察や知見が得られます。

エンタープライズ向けの推論プラットフォームである NVIDIA AI Enterprise には、最高水準の推論ソフトウェア、信頼性の高い管理とセキュリティ、高パフォーマンスと高可用性を保証する安心で安全なAPIが含まれています。

NVIDIA AI Enterprise による AI 推論のメリット

導入の標準化

アプリケーション、AI フレームワーク、モデルアーキテクチャ、プラットフォーム全体でモデルのデプロイを標準化します。

簡単に統合

パブリッククラウド、オンプレミスデータセンター、エッジのツールやプラットフォームと簡単に統合できます。

より低いコストで

AI インフラストラクチャの高いスループットと稼働率を実現し、コストを削減します。

シームレスに拡張

アプリケーションの需要に応じて推論をシームレスに拡張します。

ハイパフォーマンス

NVIDIA 推論プラットフォームは、AI の主要な業界ベンチマークである MLPerf の複数のカテゴリにわたって、常に記録的なパフォーマンスを発揮しています。

エンドツーエンドの NVIDIA AI 推論プラットフォーム

NVIDIA AI 推論ソフトウェア

NVIDIA AI Enterprise は、NVIDIA Triton™ Inference Server、NVIDIA® TensorRT™、NVIDIA TensorRT-LLM、および AI アプリケーションの構築、共有、展開を簡素化するその他のツールで構成されるエンドツーエンドの AI ソフトウェアプラットフォームです。エンタープライズグレードのサポート、安定性、管理性、セキュリティにより、企業は計画外のダウンタイムを排除しながら価値実現を加速することができます。

NVIDIA Triton Inference Server

NVIDIA Triton Inference Server は、GPU または CPU ベースのインフラス上のすべての主要な AI フレームワークから本番環境での AI モデルのデプロイと実行を標準化するのに役立つオープンソースの推論サービスソフトウェアです。

詳細を見る

NVIDIA TensorRT

NVIDIA TensorRT は、高性能ディープラーニング推論用の SDK です。これには、推論アプリケーションに低レイテンシと高スループットを実現するディープラーニング推論オプティマイザーとランタイムが含まれています。 TensorRT は Triton を使用してデプロイ、実行、スケーリングすることができます。

詳細を見る

NVIDIA TensorRT-LLM

TensorRT-LLM は、本番環境で推論するための大規模言語モデル (LLM) を定義、最適化、実行するためのオープンソースライブラリです。 TensorRT のディープラーニングコンパイラと組み合わせた FasterTransformer のコア機能をオープンソース Python API で維持し、新しいモデルとカスタマイズを迅速にサポートします。

詳細を見る

NVIDIA AI 推論インフラストラクチャ

NVIDIA L4 GPU

L4 は、ビデオ、AI、ビジュアルコンピューティング、グラフィックス、仮想化向けアクセラレーションで、汎用的でエネルギー効率とコスト効率に優れています。GPU は、CPU ベースのソリューションよりも 120 倍高い AI ビデオ性能を実現し、企業はコンテンツのパーソナライズや検索関連性の向上など、リアルタイムの洞察や知見を得ることができます。

詳細を見る

NVIDIA L40S GPU

NVIDIA の推論処理ソフトウェアのフルスタックと L40S GPU を組み合わせることで、推論に適した学習済みモデルのための強力なプラットフォームが提供されます。構造的スパース性と幅広い精度をサポートする L40S は、NVIDIA A100 Tensor コア GPU の最大 1.7 倍の推論性能を実現します。

詳細を見る

NVIDIA H100 Tensor コア GPU

H100 は、NVIDIA のアクセラレーションコンピューティングデータセンタープラットフォームに次なる大きな飛躍をもたらし、小規模企業のワークロードからエクサスケールの HPC や数兆パラメーターの AI まで、さまざまなワークロードをあらゆるデータセンターで安全に加速します。

詳細を見る

NVIDIA GH200 Superchip

企業は、最大規模のモデルを処理し、推論インフラストラクチャの可能性を最大限に発揮するための多用途システムを必要としています。 GH200 Grace Hopper Superchip は、従来の高速推論ソリューションと比較して 7 倍を超える高速アクセスメモリを GPU に提供し、CPU 推論ソリューションよりも大幅に高い FLOPS を実現して、LLM、レコメンダ、ベクトルデータベースなどに対応します。

詳細を見る

さまざまな業界で活用される AI 推論

金融サービスにおける不正行為の防止

American Express は、クレジットカード取引における超低遅延の不正検出に AI を使用しています。

詳細を見る

自動運転向けの推論の高速化

NIO が NVIDIA Triton を自動運転推論パイプラインに統合することで、どのようにして低遅延推論ワークフローを実現したかをご覧ください。

詳細を見る

バーチャルチームのコラボレーションの強化

Microsoft Teams は、28 言語での高精度のライブ会議のキャプションおよび文字起こしサービスを提供しています。

詳細を見る

音楽における優れた顧客体験の提供

Amazon Music がどのように SageMaker と NVIDIA AI を使用して、機械学習のトレーニングと推論のパフォーマンスとコストを最適化しているかをご覧ください。

詳細を見る

広告配信の高速化

Microsoft Bing が NVIDIA Triton Inference Server を使用して広告配信を高速化し、7 倍のスループットを実現している方法をご覧ください。

詳細を見る

より速く、より正確な AI 推論

NVIDIA AI Enterprise で次世代 AI 推論を実現