翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker AI でトレーニングジョブのストレージパスを設定するときは、次の点を考慮してください。
-
分散トレーニングのトレーニングアーティファクトを
/opt/ml/output/data
ディレクトリに保存する場合は、サブディレクトリを正しく追加するか、モデル定義またはトレーニングスクリプトを介してアーティファクト固有のファイル名を使用する必要があります。サブディレクトリとファイル名が正しく設定されていない場合、すべての分散トレーニングワーカーが Amazon S3 の同じ出力パスの同じファイル名に出力を書き込む可能性があります。 -
カスタムトレーニングコンテナを使用する場合は、SageMaker トレーニングジョブの環境設定に役立つ SageMaker Training Toolkit
がインストールされていることを確認してください。それ以外の場合は、Dockerfile の環境変数を明示的に指定する必要があります。詳細については、「Create a container with your own algorithms and models」を参照してください。 -
NVMe SSD ボリュームで ML インスタンスを使用する場合、SageMaker AI は Amazon EBS gp2 ストレージをプロビジョニングしません。使用可能なストレージは、NVMe タイプのインスタンスのストレージ容量に固定されます。SageMaker AI は、トレーニングデータセット、チェックポイント、モデルアーティファクト、出力のストレージパスを設定して、インスタンスストレージの容量全体を使用します。例えば、NVMe タイプのインスタンスストレージを使用する ML インスタンスファミリーには、
ml.p4d
、ml.g4dn
、およびml.g5
が含まれます。EBS 専用ストレージオプションでインスタンスストレージを使用しない ML インスタンスを使用する場合は、SageMaker AI 推定器クラスのvolume_size
パラメータを使用して EBS ボリュームのサイズを定義する必要があります (ResourceConfig
APIVolumeSizeInGB
を使用している場合は )。例えば、EBS ボリュームを使用する ML インスタンスファミリーには、ml.c5
とml.p2
が含まれます。インスタンスタイプとそのインスタンスストレージタイプやボリュームを検索するには、「Amazon EC2 インスタンスタイプ」を参照してください。 -
SageMaker トレーニングジョブのデフォルトのパスは、ML インスタンスの Amazon EBS ボリューム、または NVMe SSD ボリュームにマウントされます。トレーニングスクリプトを SageMaker AI に適応させるときは、 に関する前のトピックにリストされているデフォルトのパスを使用していることを確認してくださいSageMaker AI 環境変数とトレーニングストレージの場所のデフォルトパス。トレーニング中に一時的に大きなオブジェクトを保存するためのスクラッチスペースとして、
/tmp
ディレクトリを使用することをお勧めします。したがって、スペース不足のエラーを回避するため、/user
や/home
など、システムが割り当てられたスペースの小さなディスクにマウントされたディレクトリは使用しないでください。
詳細については、 AWS 機械学習ブログAmazon SageMakerトレーニングジョブに最適なデータソース