本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用訓練
新增要共用的模型時,您可以選擇性地提供訓練環境,並允許組織中的協作者訓練共用模型。
注意
如果您要新增表格式模型,您還需要指定資料欄格式和目標欄來啟用訓練。如需詳細資訊,請參閱 Amazon 開發人員指南中的 Amazon SageMaker Canvas。 SageMaker
提供有關模型的基本詳細資訊後,您需要設定訓練任務的設定,以用於訓練模型。這包括指定容器環境、程式碼指令碼、資料集、輸出位置和各種其他參數,以控制訓練任務的執行方式。若要設定訓練任務設定,請遵循下列步驟:
-
新增用於模型訓練的容器。您可以選取用於現有訓練任務的容器、在 Amazon 中自備容器ECR,或使用 Amazon SageMaker Deep Learning Container。
-
新增環境變數。
-
提供訓練指令碼位置。
-
提供指令碼模式進入點。
-
為訓練期間產生的URI模型成品提供 Amazon S3。
-
將 Amazon S3 URI 提供給預設訓練資料集。
-
提供模型輸出路徑。模型輸出路徑應該是 Amazon S3 URI 路徑,用於訓練產生的任何模型成品。 SageMaker 在 Amazon S3 中將模型成品儲存為單一壓縮TAR檔案。
-
提供驗證資料集,以便在訓練期間評估模型。驗證資料集必須包含與訓練資料集相同數量的欄位和功能標題。
-
開啟網路隔離。網路隔離會隔離模型容器,因此無法對模型容器進行傳入或傳出網路呼叫。
-
提供 SageMaker 訓練管道,透過這些管道存取您的資料。例如,您可以指定名為
train
或test
的通道。針對每個頻道,指定頻道名稱和資料URI位置的 。選擇瀏覽以搜尋 Amazon S3 位置。 -
提供超參數。新增任何超參數,協作者應在訓練期間進行實驗。提供這些超參數的有效值範圍。此範圍用於訓練任務超參數驗證。您可以根據超參數的資料類型來定義範圍。
-
選取執行個體類型。我們建議您使用具有更多記憶體的GPU執行個體進行大型批次大小的訓練。如需跨 AWS 區域 SageMaker 訓練執行個體的完整清單,請參閱 Amazon Pricing 中的隨需定價資料表。 SageMaker
-
提供指標。您可以針對訓練監控的每個指標指定名稱和規則表達式,藉此定義訓練任務的指標。設計規則表達式以擷取演算法所發出指標的值。例如,指標
loss
可能具有規則表達式"Loss =(.*?);"
。