SageMaker Profiler 故障診斷 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker Profiler 故障診斷

使用 question-and-answer SageMaker Profiler 時,使用以下配對對問題進行故障診斷。

問:我收到錯誤訊息, ModuleNotFoundError: No module named 'smppy'

自 2023 年 12 月起, SageMaker Profiler Python 套件的名稱已從 smppy 變更為 ,smprof以解決重複的套件名稱問題; smppy 已由開放原始碼套件使用。

因此,如果您smppy從 2023 年 12 月之前開始使用 並遇到ModuleNotFoundError此問題,這可能是由於訓練指令碼中的套件名稱過期,同時已安裝最新的smprof套件或使用最新的 之一SageMaker 預先安裝 Profiler 的 AI SageMaker 架構映像。在此情況下,請確定您在訓練指令碼smprof中將所有提及的內容取代smppy為 。

在訓練指令碼中更新 SageMaker Profiler Python 套件名稱時,為了避免混淆您應該使用的套件名稱版本,請考慮使用條件式匯入陳述式,如下列程式碼片段所示。

try: import smprof except ImportError: # backward-compatability for TF 2.11 and PT 1.13.1 images import smppy as smprof

另請注意,如果您在升級至最新 PyTorch 或 TensorFlow 版本smppy時使用 ,請務必遵循 中的指示安裝最新的smprof套件(選用) 安裝 SageMaker Profiler Python 套件

問:我收到錯誤訊息, ModuleNotFoundError: No module named 'smprof'

首先,請確定您使用其中一個官方支援的 SageMaker AI Framework Containers。如果您不使用其中一項,您可以依照 的指示安裝smprof套件(選用) 安裝 SageMaker Profiler Python 套件

問:我無法匯入 ProfilerConfig

如果您無法使用 SageMaker Python 在您的任務啟動器指令碼ProfilerConfig中匯入 SDK,則您的本機環境或 Jupyter 核心可能有 Python SageMaker 的顯著過時版本SDK。請確定您已將 SDK 升級至最新版本。

$ pip install --upgrade sagemaker

問:我收到錯誤訊息, aborted: core dumped when importing smprof into my training script

在舊版 中smprof, PyTorch 2.0+ 和 PyTorch Lightning 會發生此問題。若要解決此問題,也請依照 的指示安裝最新的smprof套件(選用) 安裝 SageMaker Profiler Python 套件

問:我找不到 SageMaker Studio 中的 SageMaker Profiler UI。如何找到它?

如果您可存取 SageMaker AI 主控台,請選擇下列其中一個選項。

如果您是網域使用者且無法存取 SageMaker AI 主控台,您可以透過 SageMaker Studio Classic 存取應用程式。如果是這種情況,請選擇下列選項。