在高效能運算、資料科學、生物資訊學和深度學習領域中,需要大量運算的 CUDA® C++ 應用程式可透過使用多個 GPU 加速,增加吞吐量和/或縮短總執行時間。與並行的重疊運算和記憶體傳輸搭配使用時,可以運用多個 GPU 擴充運算,無須增加記憶體傳輸的成本。對於在雲端或在 NVIDIA DGX™ 系統上擁有多 GPU 伺服器的組織,這些技術都能讓你從 GPU 加速的應用程式達到最佳效能。而在跨多個節點擴充應用程式之前,重要的是要先實作這些單一節點的多 GPU 技術。
此實作坊將介紹如何編寫 CUDA C++ 應用程式,藉以在單一節點中有效且正確運用所有可用的 GPU、大幅提升應用程式的效能,並且以最符合成本效益的方式使用多個 GPU 的系統。
學習目標
參加本實作坊可學會:
- 同時使用 CUDA Streams 將記憶體搬移與 GPU 運算重疊
- 在單一節點上運用所有可用的 GPU,進而在所有可用的 GPU 上擴充工作負載
- 將複製/運算重疊與多個 GPU 搭配使用
- 利用 NVIDIA Nsight™ System 視覺分析工具時間軸,觀察改善的機會以及實作坊中所涵蓋之技術造成的影響。
下載實作坊大綱與簡介 (PDF 243 KB)