このワークショップでは、CUDA® と Numba コンパイラー GPU を使用し、GPU で高速化する Python アプリケーションを実行するための基本的なツールと手法について学習します。たくさんの実践的コーディング演習をこなし、トレーニングの終了時、CPU 向けに元々設計された、完全に機能する線形代数プログラムを加速するための新しいワークフローを実装し、パフォーマンスの大幅な向上を観察します。ワークショップの終了後は、新しい GPU 対応アプリケーションを自分で開発する際に役立つ追加リソースが与えられます。

 

学習目標


このワークショップでは、次のことを行います。
  • GPU アクセラレーテッド NumPy ufuncs を少ないコード行で作成する
  • CUDA スレッド改装を利用し、コード並列化を構成する
  • パフォーマンスと柔軟性を最大化する目的でカスタム CUDA デバイス カーネルを記述する
  • メモリ合体とオンデバイス共有メモリを使用し、CUDA カーネル帯域幅を増やす
  • GPU で乱数を生成する
  • 中級向け GPU メモリ管理手法について学習する

ワークショップ データシートをダウンロードする (PDF 298 KB)

ワークショップの概要

序論
(15 分)
  • インストラクターの紹介。
  • courses.nvidia.com/join でアカウントを作成する
CUDA Python + Numba 入門
(120 分)
  • Python で Numba コンパイラーと CUDA プログラミングの使用を始める。
  • Numba デコレーターを使用し、Python 数字関数を GPU 加速する。
  • ホストからデバイスへのメモリ転送とデバイスからホストへのメモリ転送を最適化する
休憩 (60 分)
Python + Numba のカスタム CUDA カーネル
(120 分)
  • CUDA の並列スレッド階層と、並列プログラムでできることを増やす方法について学習する。
  • GPU で超並列カスタム CUDA カーネルを起動する。
  • CUDA 不可分操作を活用し、並列実行中の競合状態を回避する。
休憩 (15 分)
CUDA Python + Numba のための RNG、多次元グリッド、共有メモリ
(120 分)
  • GPU で高速化するモンテカルロ手法を支援する目的で xoroshiro128+ RNG (乱数生成) を使用する。
  • 多次元グリッド作成と 2D 行列での並列について学習する。
  • オンデバイス共有メモリを活用してメモリを合体させ、2D 行列を作り替える。
最終確認
(15 分)
  • 主要な学習事項をおさらいし、問いで締めくくる。
  • 評価を完了し、認定証を取得する。
  • ワークショップ アンケートを受ける。
 

ワークショップの詳細

時間: 8 時間

価格: 公開ワークショップは $500 です、企業向けワークショップについては、お問い合わせください。

参加条件:

  • 変数の型、ループ、条件付き命令、関数、配列操作など、Python の基本知識
  • ndarrays や ufunc の使用など、NumPy の知識
  • CUDA プログラミングの知識は問われません

テクノロジ: Numba、NumPy

証明書: 評価が正常に完了すると、NVIDIA DLI 証明書が参加者に贈られます。これは専門分野の能力を証明するものであり、プロフェッショナルとしてのキャリアアップを支援します。

ハードウェア要件: 最新版の Chrome または Firefox を実行できるデスクトップ コンピューターまたはノート PC。参加者は全員、完全に設定が終わっている状態でクラウドに置かれている GPU 対応サーバーに専用アクセスできます。

言語: 英語、中国語 (簡体字)中国語 (繁体字)

開催予定のワークショップ

お客様の組織が、AI、アクセラレーテッド データ サイエンス、アクセラレーテッド コンピューティングの主要なスキルの向上と開発にご興味をお持ちの場合、NVIDIA Deep Learning Institute (DLI) にインストラクターによるワークショップをリクエストしていただけます。

NVIDIA に問い合わせる