AWS 區域 Debugger 和自訂容器搭配使用 Debugger 開放原始碼 GitHub 儲存庫

支援的架構和演算法

下表顯示 Debugger 支援的 SageMaker AI 機器學習架構和演算法。

SageMaker AI-supported frameworks and algorithms	Debugging output tensors
TensorFlow	AWS TensorFlow 深度學習容器 1.15.4 或更新版本
PyTorch	AWS PyTorch 深度學習容器 1.5.0 或更新版本
MXNet	AWS MXNet 深度學習容器 1.6.0 或更新版本
XGBoost	1.0-1、1.2-1、1.3-1
SageMaker AI 一般估算器	自訂訓練容器 (適用於具有手動勾點註冊的 TensorFlow、PyTorch、MXNet 和 XGBoost)

偵錯輸出張量——追蹤並偵錯模型參數，例如訓練工作的權重、梯度、偏差和純量值。可用深度學習架構為 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。

重要
針對具有 Keras 的 TensorFlow 架構，SageMaker Debugger 棄用使用 TensorFlow 2.6 及更新版本 tf.keras 模組所建立之偵錯模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本註釋中公告有突破性變更。如需如何更新訓練指令碼的指示，請參閱調整您的 TensorFlow 訓練指令碼。

重要
從 PyTorch 1.12.0 版及更新版本開始，SageMaker Debugger 棄用偵錯模型的零程式碼變更支援。
這是因為突破性變更導致 SageMaker Debugger 干擾 torch.jit 功能。如需如何更新訓練指令碼的指示，請參閱調整 PyTorch 訓練指令碼。

如果表中未列出您要訓練和偵錯的架構或演算法，請前往AWS 討論論壇，並在 SageMaker Debugger 上留下意見回饋。

AWS 區域

Amazon SageMaker Debugger 可在 Amazon SageMaker AI 服務的所有區域使用，但下列區域除外。

亞太區域 (雅加達)：ap-southeast-3

若要尋找 Amazon SageMaker AI 是否在您的中處於服務狀態 AWS 區域，請參閱AWS 區域服務。

Debugger 和自訂訓練容器搭配使用

將訓練容器帶入 SageMaker AI，並使用 Debugger 深入了解您的訓練任務。使用監控和偵錯功能，在 Amazon EC2 執行個體上最佳化模型，將您的工作效率最大化。

有關如何使用 sagemaker-debugger 用戶端程式庫，將其推送到 Amazon Elastic Container Registry (Amazon ECR)，並監視和偵錯，請參閱搭配自訂訓練容器使用 Debugger。

Debugger 開放原始碼 GitHub 儲存庫

Debugger APIs 透過 SageMaker Python SDK 提供，旨在建構 SageMaker AI CreateTrainingJob 和 DescribeTrainingJob API 操作的 Debugger 勾點和規則組態。sagemaker-debugger 用戶端程式庫提供工具來註冊勾點，並透過其試用功能存取訓練資料，全部都透過具有彈性且功能強大的 API 作業進行。在 Python 3.6 及更新版本中，此功能支援機器學習架構 TensorFlow、PyTorch、MXNet 和 XGBoost。

有關 Debugger 和sagemaker-debuggerAPI 作業，請參閱以下連結：

如果您使用適用 SDK for Java 的軟體開發工具包執行 SageMaker 訓練作業並且想要配置 Debugger API，請參閱以下參考文獻：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

SageMaker Debugger

除錯器架構

支援的架構和演算法

重要

重要

AWS 區域

Debugger 和自訂訓練容器搭配使用

Debugger 開放原始碼 GitHub 儲存庫