本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
偵錯工具範例筆記本
SageMaker 偵錯工具範例筆記本
我們建議您在 SageMaker Studio 或 SageMaker 筆記本執行個體上執行範例筆記本,因為大多數範例都是針對 SageMaker 生態系統中的訓練任務而設計,包括 Amazon EC2、Amazon S3 和 Amazon SageMaker Python SDK。
若要將範例儲存庫複製到 SageMaker Studio,請遵循 Amazon SageMaker Studio Tour 中的指示。
若要尋找 SageMaker 筆記本執行個體中的範例,請遵循SageMaker 筆記本執行個體範例筆記本 中的指示。
重要
若要使用新的偵錯工具功能,您需要升級 SageMaker Python SDK和SMDebug
用戶端程式庫。在您的 iPython 核心、Jupyter Notebook 或 JupyterLab環境中,執行下列程式碼來安裝最新版本的程式庫並重新啟動核心。
import sys import IPython !{sys.executable} -m pip install -U sagemaker smdebug IPython.Application.instance().kernel.do_shutdown(True)
分析訓練任務的偵錯工具範例筆記本
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構監控及分析訓練任務的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
Keras ResNet50 |
Cifar-10 |
本筆記本介紹 Debugger SageMaker 擷取的設定檔資料的互動分析。探索 |
|
TensorFlow |
一維卷積神經網路 |
IMDB 資料集 |
描述 TensorFlow 1-D CNN用於IMDB資料分析的情緒,其中包含標記為正面或負面情緒的影片評論。瀏覽 Studio 偵錯工具深入分析和偵錯工具分析報告。 |
|
TensorFlow |
ResNet50 | Cifar-10 |
使用各種分散式 TensorFlow 訓練設定執行訓練任務、監控系統資源使用率,以及使用 Debugger 分析模型效能。 |
|
PyTorch |
ResNet50 |
Cifar-10 |
使用各種分散式 PyTorch 訓練設定執行訓練任務、監控系統資源使用率,以及使用 Debugger 描述模型效能。 |
用於分析模型參數的偵錯工具範例筆記本
下列清單列出偵錯工具範例筆記本,說明偵錯工具針對不同機器學習模型、資料集和架構對訓練任務進行偵錯的適應性。
筆記本標題 | 架構 | 模型 | 資料集 | 描述 |
---|---|---|---|---|
TensorFlow |
卷積神經網路 |
MNIST |
使用 Amazon SageMaker Debugger 內建規則對模型進行 TensorFlow偵錯。 |
|
TensorFlow |
ResNet50 |
Cifar-10 |
使用 Amazon SageMaker Debugger 掛鉤組態和內建規則,透過 Tensorflow 2.1 架構對模型進行偵錯。 |
|
MXNet |
Gluon 卷積神經網路 |
時尚 MNIST |
執行訓練任務,並設定 SageMaker 偵錯工具以存放此任務的所有張量,然後在筆記本中視覺化這些張量。 |
|
MXNet |
Gluon 卷積神經網路 |
時尚 MNIST |
了解偵錯工具如何從 Spot 執行個體上的訓練任務收集張量資料,以及如何搭配受管 Spot 訓練使用偵錯工具內建規則。 |
|
解釋使用 Amazon SageMaker Debugger 預測個人收入的XGBoost模型 |
XGBoost |
XGBoost 迴歸 |
了解如何使用 Debugger 掛鉤和內建規則,從XGBoost迴歸模型收集和視覺化張量資料,例如損失值、特徵和SHAP值。 |
要查找模型參數和用例的進階視覺化,請參閱Debugger 進階示範和視覺化。