より速く、より正確な AI 推論

AI 対応のアプリケーションとサービスで画期的なパフォーマンスを推進します。

AI は推論によって結果を出し、あらゆる業界のイノベーションを推進します。 AI モデルの規模、複雑さ、多様性は急速に拡大しており、可能性の限界を押し上げています。効果的な AI 推論の実現に向けて、エンドツーエンドの AI ライフサイクルをサポートするフルスタックのアプローチと、目標達成を支えるツールが今求められています。


NVIDIA AI Enterprise で次世代 AI 推論を実現

NVIDIA は、クラウド、データ センター、ネットワーク エッジ、組み込みデバイスにおいて、次世代の AI 推論に不可欠なパフォーマンス、効率性、応答性を提供する製品、インフラ、サービスのエンドツーエンドのスタックを提供しています。それらは、AI に関するさまざまなレベルの専門知識と経験を持つ MLOps エンジニア、データ サイエンティスト、アプリケーション開発者、ソフトウェア インフラ エンジニア向けに設計されています。

NVIDIA のフルスタックで実現するアーキテクチャ は、AI アプリケーションが最適なパフォーマンス、より少ないサーバー、より少ない電力で展開されることを保証し、劇的に低いコストでより迅速な洞察や知見が得られます。

エンタープライズ 向けの推論プラットフォームである NVIDIA AI Enterprise には、最高水準の推論ソフトウェア、信頼性の高い管理とセキュリティ、高パフォーマンスと高可用性を保証する安心で安全なAPIが含まれています。

NVIDIA AI Enterprise による AI 推論のメリット

導入の標​​準化

アプリケーション、AI フレームワーク、モデル アーキテクチャ、プラットフォーム全体でモデルのデプロイを標準化します。

簡単に統合

パブリック クラウド、オンプレミス データ センター、エッジのツールやプラットフォームと簡単に統合できます。

より低いコストで

AI インフラストラクチャの高いスループットと稼働率を実現し、コストを削減します。

シームレスに拡張

アプリケーションの需要に応じて推論をシームレスに拡張します。

ハイ パフォーマンス

NVIDIA 推論プラットフォームは、AI の主要な業界ベンチマークである MLPerf の複数のカテゴリにわたって、常に記録的なパフォーマンスを発揮しています。

エンドツーエンドの NVIDIA AI 推論プラットフォーム

NVIDIA AI 推論ソフトウェア

NVIDIA® AI Enterprise は、NVIDIA Triton™ Inference ServerNVIDIA Triton Management ServiceNVIDIA TensorRT™、NVIDIA TensorRT-LLM、および AI アプリケーションの構築、共有、展開を簡素化するその他のツールなどで構成されるエンドツーエンドの AI ソフトウェア プラットフォームです。エンタープライズ 向けのサポート、安定性、管理性、セキュリティにより、企業は計画外ダウンタイムを回避しながら価値の実現を加速することができます。

NVIDIA Triton Inference Server

NVIDIA Triton Inference Server は、GPU または CPU ベースのインフラス上のすべての主要な AI フレームワークから本番環境での AI モデルのデプロイと実行を標準化するのに役立つオープンソースの推論サービス ソフトウェアです。

NVIDIA Triton Management Service

NVIDIA Triton Management Service は、GPU と CPU 上のリソース効率の高いモデル オーケストレーションを使用して、Kubernetes での複数の Triton Inference Server インスタンスのデプロイを自動化します。

NVIDIA TensorRT

NVIDIA TensorRT は、高性能ディープラーニング推論用の SDK です。これには、推論アプリケーションに低レイテンシと高スループットを実現するディープラーニング推論オプティマイザーとランタイムが含まれています。 TensorRT は Triton を使用してデプロイ、実行、スケーリングすることができます。

NVIDIA TensorRT-LLM

TensorRT-LLM は、本番環境で推論するための大規模言語モデル (LLM) を定義、最適化、実行するためのオープンソース ライブラリです。 TensorRT のディープ ラーニング コンパイラと組み合わせた FasterTransformer のコア機能をオープン ソース Python API で維持し、新しいモデルとカスタマイズを迅速にサポートします。

NVIDIA AI 推論インフラストラクチャ

NVIDIA L4 GPU

L4 は、ビデオ、AI、ビジュアル コンピューティング、グラフィックス、仮想化向けアクセラレーションで、汎用的でエネルギー効率とコスト効率に優れています。GPU は、CPU ベースのソリューションよりも 120 倍高い AI ビデオ性能を実現し、企業はコンテンツのパーソナライズや検索関連性の向上など、リアルタイムの洞察や知見を得ることができます。

NVIDIA L40S GPU

NVIDIA の推論処理ソフトウェアのフルスタックと L40S GPU を組み合わせることで、推論に適した学習済みモデルのための強力なプラットフォームが提供されます。構造的スパース性と幅広い精度をサポートする L40S は、NVIDIA A100 Tensor コア GPU の最大 1.7 倍の推論性能を実現します。

NVIDIA H100 Tensor コア GPU

H100 は、NVIDIA のアクセラレーション コンピューティング データ センター プラットフォームに次なる大きな飛躍をもたらし、小規模企業のワークロードからエクサスケールの HPC や数兆パラメーターの AI まで、さまざまなワークロードをあらゆるデータ センターで安全に加速します。

NVIDIA GH200 Superchip

企業は、最大規模のモデルを処理し、推論インフラストラクチャの可能性を最大限に発揮するための多用途システムを必要としています。 GH200 Grace Hopper Superchip は、従来の高速推論ソリューションと比較して 7 倍を超える高速アクセス メモリを GPU に提供し、CPU 推論ソリューションよりも大幅に高い FLOPS を実現して、LLM、レコメンダ、ベクトル データベースなどに対応します。

さまざまな業界で活用される AI 推論

金融サービスにおける不正行為の防止

American Express は、クレジット カード取引における超低遅延の不正検出に AI を使用しています。

自動運転向けの推論の高速化

NIO が NVIDIA Triton を自動運転推論パイプラインに統合することで、どのようにして低遅延推論ワークフローを実現したかをご覧ください。

バーチャル チームのコラボレーションの強化

Microsoft Teams は、28 言語での高精度のライブ会議のキャプションおよび文字起こしサービスを提供しています。

関連情報

最新情報を確認する

最新の推論の更新情報と発表をご覧ください。

専門家の話を聞く

推論、Triton Inference Server、Triton Management Service、TensorRT の利用に役立つ GTC セッションをご覧ください。

技術ブログを探す

推論を始めるのに役立つ、技術的なチュートリアルをお読みください。

Ebook をチェックする

AI 推論の最新の状況、企業による実例、現実世界での課題と解決策を発見してください。

NVIDIA の AI 推論に関する最新情報をお届けします。