Amazon 如何 SageMaker 處理培訓輸出 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 如何 SageMaker 處理培訓輸出

容器執行演算法的期間,該演算法所產生的輸出會包含訓練工作、模型與輸出成品的狀態。而演算法應該將這項資訊寫入下列檔案;這些檔案位於容器的 /output 目錄中。Amazon SageMaker 處理此目錄中包含的資訊,如下所示:

  • /opt/ml/model-您的算法應該將所有最終模型加工品寫入此目錄。 SageMaker 將此資料以壓縮 tar 格式的單一物件複製到您在CreateTrainingJob要求中指定的 S3 位置。如果單一訓練工作中的多個容器寫入此目錄,則應確保file/directory名稱不會發生衝突。 SageMaker將結果彙總到 TAR 檔案中,並在訓練任務結束時上傳到 S3。

  • /opt/ml/output/data-您的算法應該將您想要存儲的最終模型以外的工件寫入此目錄。 SageMaker將此資料以壓縮 tar 格式的單一物件複製到您在CreateTrainingJob要求中指定的 S3 位置。如果單一訓練工作中的多個容器寫入此目錄,則應確保file/directory名稱不會發生衝突。 SageMaker 將結果彙總到 TAR 檔案中,並在訓練任務結束時上傳到 S3。

  • /opt/ml/output/failure – 若訓練失敗,則在所有演算法完成輸出後 (如記錄),您的演算法應該將失敗說明寫入此檔案。在回DescribeTrainingJob應中, SageMaker 傳回此檔案的前 1024 個字元為FailureReason

您可以指定 S3 一般用途或 S3 目錄儲存貯體來存放訓練輸出。目錄儲存貯體僅使用 Amazon S3 Express 單區儲存類別,該類別專為需要一致 10 毫秒延遲的工作負載或效能關鍵應用程式而設計。選擇最適合您應用和效能需求的儲存貯體類型。如需 S3 目錄儲存貯體的詳細資訊,請參閱 Amazon 簡單儲存服務使用者指南中的錄儲存貯體。