啟用訓練 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用訓練

新增要共用的模型時,您可以選擇性地提供訓練環境,並允許組織中的協作者訓練共用模型。

注意

如果您要新增表格式模型,您還需要指定資料欄格式和目標欄來啟用訓練。如需詳細資訊,請參閱 Amazon 開發人員指南中的 Amazon SageMaker Canvas SageMaker

提供有關模型的基本詳細資訊後,您需要設定訓練任務的設定,以用於訓練模型。這包括指定容器環境、程式碼指令碼、資料集、輸出位置和各種其他參數,以控制訓練任務的執行方式。若要設定訓練任務設定,請遵循下列步驟:

  1. 新增用於模型訓練的容器。您可以選取用於現有訓練任務的容器、在 Amazon 中自備容器ECR,或使用 Amazon SageMaker Deep Learning Container。

  2. 新增環境變數。

  3. 提供訓練指令碼位置。

  4. 提供指令碼模式進入點。

  5. 為訓練期間產生的URI模型成品提供 Amazon S3。

  6. 將 Amazon S3 URI 提供給預設訓練資料集。

  7. 提供模型輸出路徑。模型輸出路徑應該是 Amazon S3 URI 路徑,用於訓練產生的任何模型成品。 SageMaker 在 Amazon S3 中將模型成品儲存為單一壓縮TAR檔案。

  8. 提供驗證資料集,以便在訓練期間評估模型。驗證資料集必須包含與訓練資料集相同數量的欄位和功能標題。

  9. 開啟網路隔離。網路隔離會隔離模型容器,因此無法對模型容器進行傳入或傳出網路呼叫。

  10. 提供 SageMaker 訓練管道,透過這些管道存取您的資料。例如,您可以指定名為 traintest 的通道。針對每個頻道,指定頻道名稱和資料URI位置的 。選擇瀏覽以搜尋 Amazon S3 位置。

  11. 提供超參數。新增任何超參數,協作者應在訓練期間進行實驗。提供這些超參數的有效值範圍。此範圍用於訓練任務超參數驗證。您可以根據超參數的資料類型來定義範圍。

  12. 選取執行個體類型。我們建議您使用具有更多記憶體的GPU執行個體進行大型批次大小的訓練。如需跨 AWS 區域 SageMaker 訓練執行個體的完整清單,請參閱 Amazon Pricing 中的隨需定價資料表。 SageMaker

  13. 提供指標。您可以針對訓練監控的每個指標指定名稱和規則表達式,藉此定義訓練任務的指標。設計規則表達式以擷取演算法所發出指標的值。例如,指標 loss 可能具有規則表達式 "Loss =(.*?);"