Amazon SageMaker Profiler - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker Profiler

Amazon SageMaker Profiler 目前處於預覽版本中,並可在 中免費使用 AWS 區域。Amazon SageMaker Profiler 的通用版本 (如果有的話) 可能包含與預覽版所提供的功能和定價不同的功能和定價。

Amazon SageMaker Profiler 是 Amazon SageMaker AI 的功能,可讓您詳細檢視在 AWS SageMaker AI 上訓練深度學習模型期間佈建的運算資源。它專注於分析 CPU和 GPU用量、核心在 上執行GPUs、CPUs同步操作、跨 CPUs和 的記憶體操作GPUs、核心啟動和對應執行之間的延遲,以及 CPUs和 之間的資料傳輸GPUs。 SageMaker Profiler 也提供使用者介面 (UI),可視覺化描述檔、描述事件的統計摘要,以及訓練任務的時間表,以追蹤和了解 GPUs與 之間的事件時間關係CPUs。

注意

SageMaker Profiler 支援 PyTorch 和 TensorFlow ,可在適用於 AWS SageMaker AI 的深度學習容器中使用。如需進一步了解,請參閱 支援的架構映像 AWS 區域和執行個體類型

對於資料科學家

在大型運算叢集訓練深度學習模型通常會遇到運算最佳化問題,例如瓶頸、核心啟動延遲、記憶體限制以及資源使用率低。

若要識別此類運算效能問題,您需要深入分析運算資源,以瞭解哪些核心會導致延遲,以及哪些作業會造成瓶頸。資料科學家可以利用 SageMaker Profiler UI 來視覺化訓練任務的詳細設定檔。使用者介面提供儀表板,其中包含總結圖表和時間軸介面,可追蹤運算資源的每個事件。資料科學家也可以新增自訂註釋,以使用 SageMaker Profiler Python 模組追蹤訓練任務的某些部分。

針對管理員

如果您是 AWS 帳戶或 SageMaker AI SageMaker 網域的管理員,您可以透過 SageMaker AI 主控台或 AI 網域中的 Profiler 登陸頁面來管理 Profiler 應用程式使用者。每個網域使用者可以存取自己的 Profiler 應用程式,並授予許可。身為 SageMaker AI 網域管理員和網域使用者,您可以根據擁有的許可層級來建立和刪除 Profiler 應用程式。