Amazon EKS がオーケストレーションした SageMaker HyperPod クラスターのストレージを設定する

クラスター管理者は、SageMaker HyperPod クラスターでのトレーニング中に入出力データを管理し、チェックポイントを保存するため、データサイエンティストユーザーのストレージを設定する必要があります。

大規模なデータセットの処理 (入出力データ)

データアクセスおよび管理: データサイエンティストは、機械学習モデルのトレーニングに必要な大規模なデータセットをよく使用します。ジョブ送信でストレージパラメータを指定すると、これらのデータセットの場所 (Amazon S3 バケット、Kubernetes の永続ボリュームなど) と、ジョブの実行中にそれらにアクセスする方法を定義できます。
パフォーマンスの最適化: 入力データへのアクセス効率は、トレーニングジョブのパフォーマンスに大きな影響を与える可能性があります。ストレージパラメータを最適化することにより、データサイエンティストはデータを効率的に読み書きできるため、I/O のボトルネックを軽減できます。

チェックポイントの保存

トレーニングのチェックポイント機能: 長時間実行されるトレーニングジョブでは、モデルの中間状態であるチェックポイントを保存するのが一般的です。これにより、データサイエンティストは、障害が発生した場合にゼロからやり直すのではなく、特定の時点からトレーニングを再開できます。
データ復旧と実験: データサイエンティストは、チェックポイントの保存場所を指定することにより、冗長性と高可用性を備えた分散ストレージシステムにこれらのチェックポイントを安全に保存できます。これは、中断からの復旧やさまざまなトレーニング戦略の実験に不可欠です。

Amazon EKS でオーケストレーションされた SageMaker HyperPod クラスターのストレージを設定する方法の実践的な経験とガイダンスについては、SageMaker HyperPod ワークショップの Amazon EKS サポートにある以下のセクションを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

レポートを生成する

Amazon EBS CSI ドライバーの使用