支援的架構和演算法 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

支援的架構和演算法

下表顯示 Debugger 支援的 SageMaker 機器學習架構和演算法。

SageMaker-supported frameworks and algorithms Debugging output tensors

TensorFlow

AWS TensorFlow 深度學習容器 1.15.4 或更新版本

PyTorch

AWS PyTorch 深度學習容器 1.5.0 或更新版本

MXNet

AWS MXNet 深度學習容器 1.6.0 或更新版本

XGBoost

1.0-1、1.2-1、1.3-1

SageMaker 一般估算器

自訂訓練容器 (適用於 TensorFlow PyTorch、MXNet、 和 XGBoost 搭配手動掛鉤註冊)

  • 偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用的深度學習架構為 ApacheMXNet、 PyTorch、 TensorFlow和 XGBoost。

    重要

    對於使用 Keras 的 TensorFlow 架構, SageMaker Debugger 會取代使用 TensorFlow 2.6 和更新tf.keras版本模組建置的偵錯模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本備註 中宣布的變更中斷。如需如何更新訓練指令碼的指示,請參閱調整 TensorFlow 訓練指令碼

    重要

    從 v1 PyTorch .12.0 及更新版本開始, SageMaker Debugger 取代了除錯模型的零程式碼變更支援。

    這是因為中斷導致 SageMaker 偵錯工具干擾torch.jit功能的變更。如需如何更新訓練指令碼的指示,請參閱調整 PyTorch 訓練指令碼

如果您想要訓練和偵錯的架構或演算法未列在資料表中,請前往AWS 討論論壇,並在 SageMaker 偵錯工具上留下意見回饋。

AWS 區域

Amazon SageMaker Debugger 可在 Amazon SageMaker 服務的所有區域使用,但下列區域除外。

  • 亞太區域 (雅加達):ap-southeast-3

若要尋找 Amazon 是否 SageMaker 在您的 中處於服務狀態 AWS 區域,請參閱 AWS Regional Services

Debugger 和自訂訓練容器搭配使用

使用 Debugger 將訓練容器帶至 SageMaker ,並深入了解您的訓練任務。使用監控和偵錯功能,在 Amazon EC2執行個體上最佳化模型,將工作效率提升到最高。

如需如何使用sagemaker-debugger用戶端程式庫建置訓練容器的詳細資訊,請將它推送至 Amazon Elastic Container Registry (Amazon ECR),並監控和偵錯,請參閱 搭配自訂訓練容器使用偵錯工具

Debugger 開放原始碼 GitHub 儲存庫

Debugger 是透過 SageMaker Python APIs提供,SDK旨在建構 和 DescribeTrainingJobAPI操作的 SageMaker CreateTrainingJob Debugger 掛鉤和規則組態。sagemaker-debugger 用戶端程式庫提供工具來註冊掛鉤,並透過其試用功能存取訓練資料,所有這些都透過其靈活且強大的API操作進行。它支援 Python 3.6 TensorFlow PyTorch和更新XGBoost版本的機器學習架構 MXNet、、 和 。

如需有關偵錯器和sagemaker-debuggerAPI操作的直接資源,請參閱下列連結:

如果您使用 SDK for Java 執行 SageMaker 訓練任務,並想要設定偵錯工具 APIs,請參閱下列參考: