支援的架構和演算法 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構和演算法

下表顯示 Debugger 支援的 SageMaker AI 機器學習架構和演算法。

SageMaker AI-supported frameworks and algorithms Debugging output tensors

TensorFlow

AWS TensorFlow 深度學習容器 1.15.4 或更新版本

PyTorch

AWS PyTorch 深度學習容器 1.5.0 或更新版本

MXNet

AWS MXNet 深度學習容器 1.6.0 或更新版本

XGBoost

1.0-1、1.2-1、1.3-1

SageMaker AI 一般估算器

自訂訓練容器 (適用於具有手動勾點註冊的 TensorFlow、PyTorch、MXNet 和 XGBoost)

  • 偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用深度學習架構為 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。

    重要

    針對具有 Keras 的 TensorFlow 架構,SageMaker Debugger 棄用使用 TensorFlow 2.6 及更新版本 tf.keras 模組所建立之偵錯模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本註釋中公告有突破性變更。如需如何更新訓練指令碼的指示,請參閱調整您的 TensorFlow 訓練指令碼

    重要

    從 PyTorch 1.12.0 版及更新版本開始,SageMaker Debugger 棄用偵錯模型的零程式碼變更支援。

    這是因為突破性變更導致 SageMaker Debugger 干擾 torch.jit 功能。如需如何更新訓練指令碼的指示,請參閱調整 PyTorch 訓練指令碼

如果表中未列出您要訓練和偵錯的架構或演算法,請前往AWS 討論論壇,並在 SageMaker Debugger 上留下意見回饋。

AWS 區域

Amazon SageMaker Debugger 可在 Amazon SageMaker AI 服務的所有區域使用,但下列區域除外。

  • 亞太區域 (雅加達):ap-southeast-3

若要尋找 Amazon SageMaker AI 是否在您的 中處於服務狀態 AWS 區域,請參閱AWS 區域服務

Debugger 和自訂訓練容器搭配使用

將訓練容器帶入 SageMaker AI,並使用 Debugger 深入了解您的訓練任務。使用監控和偵錯功能,在 Amazon EC2 執行個體上最佳化模型,將您的工作效率最大化。

有關如何使用 sagemaker-debugger 用戶端程式庫,將其推送到 Amazon Elastic Container Registry (Amazon ECR),並監視和偵錯,請參閱搭配自訂訓練容器使用 Debugger

Debugger 開放原始碼 GitHub 儲存庫

Debugger APIs 透過 SageMaker Python SDK 提供,旨在建構 SageMaker AI CreateTrainingJob DescribeTrainingJob API 操作的 Debugger 勾點和規則組態。sagemaker-debugger 用戶端程式庫提供工具來註冊勾點,並透過其試用功能存取訓練資料,全部都透過具有彈性且功能強大的 API 作業進行。在 Python 3.6 及更新版本中,此功能支援機器學習架構 TensorFlow、PyTorch、MXNet 和 XGBoost。

有關 Debugger 和sagemaker-debuggerAPI 作業,請參閱以下連結:

如果您使用適用 SDK for Java 的軟體開發工具包執行 SageMaker 訓練作業並且想要配置 Debugger API,請參閱以下參考文獻: