Amazon によってオーケストレーションされた SageMaker HyperPod クラスターのストレージを設定する EKS - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon によってオーケストレーションされた SageMaker HyperPod クラスターのストレージを設定する EKS

クラスター管理者は、データサイエンティストユーザーのストレージを設定して、入出力データを管理し、 SageMaker HyperPod クラスターのトレーニング中にチェックポイントを保存する必要があります。

大規模なデータセットの処理 (入力/出力データ)

  • データアクセスと管理: データサイエンティストは、機械学習モデルのトレーニングに必要な大規模なデータセットを使用することが多いです。ジョブ送信でストレージパラメータを指定すると、これらのデータセットの場所 (Amazon S3 バケット、Kubernetes の永続ボリュームなど) と、ジョブの実行中にそれらにアクセスする方法を定義できます。

  • パフォーマンスの最適化: 入力データにアクセスする効率は、トレーニングジョブのパフォーマンスに大きな影響を与える可能性があります。ストレージパラメータを最適化することで、データサイエンティストはデータの読み取りと書き込みを効率的に行うことができ、I/O のボトルネックを軽減できます。

チェックポイントの保存

  • トレーニングのチェックポイント: 長時間実行されるトレーニングジョブでは、モデルの中間状態であるチェックポイントを保存することが一般的な方法です。これにより、データサイエンティストは、障害が発生した場合にゼロから開始するのではなく、特定の時点からトレーニングを再開できます。

  • データ復旧と実験 : データサイエンティストは、チェックポイントのストレージ場所を指定することで、これらのチェックポイントが冗長性と高可用性を提供する分散ストレージシステムに安全に保存されるようにできます。これは、中断からの復旧やさまざまなトレーニング戦略の実験に不可欠です。

ヒント

Amazon とオーケストレーションされたクラスターの SageMaker HyperPodストレージを設定する方法に関する実践的な経験とガイダンスについてはEKS、 SageMaker HyperPod ワークショップ の Amazon EKS サポートの以下のセクションを参照してください。