本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
管理不同類型的執行個體本機儲存體的儲存路徑
在 SageMaker AI 中設定訓練任務的儲存路徑時,請考慮下列事項。
-
如果您想要將分散式訓練的訓練成品存放在
/opt/ml/output/data
目錄中,您必須透過模型定義或訓練指令碼正確附加子目錄或使用成品唯一的檔案名稱。如果未正確設定子目錄和檔案名稱,則所有分散式訓練工作者可能會將輸出寫入 Amazon S3 中相同輸出路徑中的相同檔案名稱。 -
如果您使用自訂訓練容器,請確定安裝 SageMaker 訓練工具組
,該工具組可協助設定 SageMaker 訓練任務的環境。否則,您必須在 Dockerfile 中明確指定環境變數。如需詳細資訊,請參閱使用自有的演算法和模型建立容器。 -
搭配 NVMe SSD 磁碟區使用 ML 執行個體時,SageMaker AI 不會佈建 Amazon EBS gp2 儲存體。可用儲存固定為 NVMe 類型執行個體的儲存容量。SageMaker AI 會設定訓練資料集、檢查點、模型成品和輸出的儲存路徑,以使用執行個體儲存體的整個容量。例如,具有 NVMe 類型執行個體儲存的機器學習 (ML) 執行個體系列包含
ml.p4d
、ml.g4dn
和ml.g5
。使用 ML 執行個體搭配僅限 EBS 的儲存選項,但不使用執行個體儲存時,您必須透過 SageMaker AI 估算器類別中的volume_size
參數 (或VolumeSizeInGB
如果您使用的是ResourceConfig
API) 來定義 EBS 磁碟區的大小。例如,使用 EBS 磁碟區的機器學習 (ML) 執行個體系列包含ml.c5
和ml.p2
。若要查詢執行個體類型及其執行個體儲存類型和磁碟區,請參閱 Amazon EC2 執行個體類型。 -
SageMaker 訓練任務的預設路徑會掛載至機器學習 (ML) 執行個體的 Amazon EBS 磁碟區或 NVMe SSD 磁碟區。當您調整訓練指令碼以適應 SageMaker AI 時,請務必使用上一個主題中列出的預設路徑,關於 SageMaker AI 環境變數和訓練儲存位置的預設路徑。建議您在訓練期間使用
/tmp
目錄做為暫存空間,暫時存放任何大型物件。這表示您不得使用掛載至配置給系統之小型磁碟空間的目錄,例如/user
和/home
,以避免發生空間不足錯誤。
若要進一步了解,請參閱 AWS 機器學習部落格 為您的 Amazon SageMaker 訓練任務選擇最佳資料來源