本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構和演算法
下表顯示 Debugger 支援的 SageMaker AI 機器學習架構和演算法。
SageMaker AI-supported frameworks and algorithms | Debugging output tensors |
---|---|
AWS TensorFlow 深度學習容器 |
|
AWS PyTorch 深度學習容器 |
|
AWS MXNet 深度學習容器 |
|
1.0-1、1.2-1、1.3-1 |
|
自訂訓練容器 (適用於具有手動勾點註冊的 TensorFlow、PyTorch、MXNet 和 XGBoost) |
-
偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用深度學習架構為 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。
重要
針對具有 Keras 的 TensorFlow 架構,SageMaker Debugger 棄用使用 TensorFlow 2.6 及更新版本
tf.keras
模組所建立之偵錯模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本註釋中公告有突破性變更。如需如何更新訓練指令碼的指示,請參閱調整您的 TensorFlow 訓練指令碼。 重要
從 PyTorch 1.12.0 版及更新版本開始,SageMaker Debugger 棄用偵錯模型的零程式碼變更支援。
這是因為突破性變更導致 SageMaker Debugger 干擾
torch.jit
功能。如需如何更新訓練指令碼的指示,請參閱調整 PyTorch 訓練指令碼。
如果表中未列出您要訓練和偵錯的架構或演算法,請前往AWS 討論論壇
AWS 區域
Amazon SageMaker Debugger 可在 Amazon SageMaker AI 服務的所有區域使用,但下列區域除外。
亞太區域 (雅加達):
ap-southeast-3
若要尋找 Amazon SageMaker AI 是否在您的 中處於服務狀態 AWS 區域,請參閱AWS 區域服務
Debugger 和自訂訓練容器搭配使用
將訓練容器帶入 SageMaker AI,並使用 Debugger 深入了解您的訓練任務。使用監控和偵錯功能,在 Amazon EC2 執行個體上最佳化模型,將您的工作效率最大化。
有關如何使用 sagemaker-debugger
用戶端程式庫,將其推送到 Amazon Elastic Container Registry (Amazon ECR),並監視和偵錯,請參閱搭配自訂訓練容器使用 Debugger。
Debugger 開放原始碼 GitHub 儲存庫
Debugger APIs 透過 SageMaker Python SDK 提供,旨在建構 SageMaker AI CreateTrainingJob 和 DescribeTrainingJob API 操作的 Debugger 勾點和規則組態。sagemaker-debugger
用戶端程式庫提供工具來註冊勾點,並透過其試用功能存取訓練資料,全部都透過具有彈性且功能強大的 API 作業進行。在 Python 3.6 及更新版本中,此功能支援機器學習架構 TensorFlow、PyTorch、MXNet 和 XGBoost。
有關 Debugger 和sagemaker-debugger
API 作業,請參閱以下連結:
如果您使用適用 SDK for Java 的軟體開發工具包執行 SageMaker 訓練作業並且想要配置 Debugger API,請參閱以下參考文獻: