SageMaker 模型平行程式庫的核心功能 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker 模型平行程式庫的核心功能

Amazon SageMaker 的模型平行程式庫提供分發策略和記憶體節省技術,例如分割資料平行度、張量平行處理、按層分割模型以進行管道排程,以及檢查點。模型平行處理策略與技術有助於發佈大型模型到多個裝置,同時最佳化訓練速度及記憶體使用量。此程式庫也提供 Python 協助程式函式、內容管理員與包裝函式,以調整訓練指令碼來自動化或手動分割模型。

當您對訓練 Job 實作模型平行處理原則時,您會保持與「執行具有模型平行度的 SageMaker 分散式訓練工作」區段中所示的兩個步驟工作流程相同。若要調整訓練指令碼,您需要新增零或幾行其他程式碼至訓練指令碼。若要啟動已調整訓練指令碼的訓練任務,您需要設定發佈設定參數,以便啟用節省記憶體功能,或傳遞平行處理程度的值。

若要開始使用範例,請參閱下列 Jupyter 筆記本,其中示範如何使用 SageMaker 模型平行程式庫。

若要深入了解程式庫的核心功能,請參閱下列主題。

注意

SageMaker 分散式訓練資料庫可透過 Hugging Face 和 TensorFlow SageMaker 訓練平台的 AWS 深度學習容器取 PyTorch得。若要利用分散式訓練程式庫的功能,建議您使用 SageMaker Python SDK。您也可以在JSON要求語法中手動設定,如果您使SDK用 SageMaker APIs Python (Boto3) 或. AWS Command Line Interface在整個文件中,指示和範例著重於如何搭配 SageMaker Python 使用分散式訓練程式庫SDK。

重要

SageMaker 模型平行程式庫支援的所有核心功能 PyTorch,並支援. TensorFlow