監控 - AWS 深度學習 AMIs

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控

DLAMI 您的 預先安裝了數個GPU監控工具。本指南還提及可供下載和安裝的工具。

  • GPUs 使用 監控 CloudWatch - 預先安裝的公用程式,會將GPU用量統計資料報告給 Amazon CloudWatch。

  • nvidia-smi CLI - 用於監控整體GPU運算和記憶體使用率的公用程式。這已預先安裝在您的 AWS 深度學習 AMIs () 上DLAMI。

  • NVML C 程式庫 - 以 C 為基礎API,可直接存取GPU監控和管理函數。這由 nvidia-smi 使用在 機罩CLI下,並預先安裝在您的 上DLAMI。它還有 Python 和 Perl 繫結,有助於以這些語言來開發。預先安裝在 上的 gpumon.py 公用程式DLAMI會使用來自 的 pynvml 套件nvidia-ml-py

  • NVIDIA DCGM - 叢集管理工具。造訪開發人員頁面,了解如何安裝和設定這個工具。

提示

如需使用已安裝CUDA工具的最新資訊,請參閱 NVIDIA的開發人員部落格DLAMI: