GPU エラーのクラスター修復 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

GPU エラーのクラスター修復

で失敗したトレーニングジョブを実行している場合GPU、 SageMaker はGPUヘルスチェックを実行して、障害がGPU問題に関連しているかどうかを確認します。 SageMaker は、ヘルスチェックの結果に基づいて次のアクションを実行します。

  • エラーが回復可能で、インスタンスを再起動するか、 をリセットすることで修正できる場合GPU、 SageMaker はインスタンスを再起動します。

  • エラーが復旧できず、置き換えが必要な GPU が原因で発生した場合、 SageMaker はインスタンスを置き換えます。

インスタンスは、 SageMaker クラスター修復プロセスの一環として置き換えられるか再起動されます。このプロセス中に、トレーニングジョブのステータスに次のメッセージが表示されます。

Repairing training cluster due to hardware failure

SageMaker はクラスターを最大 10回修復しようとします。クラスターの修復が成功すると、 SageMaker は前のチェックポイントからトレーニングジョブを自動的に再起動します。クラスターの修復に失敗すると、トレーニングジョブも失敗します。クラスター修復プロセスに対して請求されることはありません。トレーニングジョブが失敗しない限り、クラスターの修復は開始されません。ウォームプールクラスターでGPU問題が検出されると、クラスターは修復モードになり、障害のあるインスタンスを再起動または置き換えます。修復後も、クラスターはウォームプールクラスターとして使用できます。

前述のクラスターとインスタンスの修復プロセスを次の図に示します。

The cluster and instance repair process.