本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
支援的架構和演算法
下表顯示 Debugger 支援的 SageMaker 機器學習架構和演算法。
SageMaker-supported frameworks and algorithms | Debugging output tensors |
---|---|
AWS TensorFlow 深度學習容器 |
|
AWS PyTorch 深度學習容器 |
|
AWS MXNet 深度學習容器 |
|
1.0-1、1.2-1、1.3-1 |
|
自訂訓練容器 (適用於 TensorFlow PyTorch、MXNet、 和 XGBoost 搭配手動掛鉤註冊) |
-
偵錯輸出張量——追蹤並偵錯模型參數,例如訓練工作的權重、梯度、偏差和純量值。可用的深度學習架構為 ApacheMXNet、 PyTorch、 TensorFlow和 XGBoost。
重要
對於使用 Keras 的 TensorFlow 架構, SageMaker Debugger 會取代使用 TensorFlow 2.6 和更新
tf.keras
版本模組建置的偵錯模型的零程式碼變更支援。這是因為 TensorFlow 2.6.0 版本備註中宣布的變更中斷。如需如何更新訓練指令碼的指示,請參閱調整 TensorFlow 訓練指令碼。 重要
從 v1 PyTorch .12.0 及更新版本開始, SageMaker Debugger 取代了除錯模型的零程式碼變更支援。
這是因為中斷導致 SageMaker 偵錯工具干擾
torch.jit
功能的變更。如需如何更新訓練指令碼的指示,請參閱調整 PyTorch 訓練指令碼。
如果您想要訓練和偵錯的架構或演算法未列在資料表中,請前往AWS 討論論壇
AWS 區域
Amazon SageMaker Debugger 可在 Amazon SageMaker 服務的所有區域使用,但下列區域除外。
亞太區域 (雅加達):
ap-southeast-3
若要尋找 Amazon 是否 SageMaker 在您的 中處於服務狀態 AWS 區域,請參閱 AWS Regional Services
Debugger 和自訂訓練容器搭配使用
使用 Debugger 將訓練容器帶至 SageMaker ,並深入了解您的訓練任務。使用監控和偵錯功能,在 Amazon EC2執行個體上最佳化模型,將工作效率提升到最高。
如需如何使用sagemaker-debugger
用戶端程式庫建置訓練容器的詳細資訊,請將它推送至 Amazon Elastic Container Registry (Amazon ECR),並監控和偵錯,請參閱 搭配自訂訓練容器使用偵錯工具。
Debugger 開放原始碼 GitHub 儲存庫
Debugger 是透過 SageMaker Python APIs提供,SDK旨在建構 和 DescribeTrainingJobAPI操作的 SageMaker CreateTrainingJob Debugger 掛鉤和規則組態。sagemaker-debugger
用戶端程式庫提供工具來註冊掛鉤,並透過其試用功能存取訓練資料,所有這些都透過其靈活且強大的API操作進行。它支援 Python 3.6 TensorFlow PyTorch和更新XGBoost版本的機器學習架構 MXNet、、 和 。
如需有關偵錯器和sagemaker-debugger
API操作的直接資源,請參閱下列連結:
如果您使用 SDK for Java 執行 SageMaker 訓練任務,並想要設定偵錯工具 APIs,請參閱下列參考: