翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
GPU エラーのクラスター修復
で失敗したトレーニングジョブを実行している場合GPU、 SageMaker はGPUヘルスチェックを実行して、障害がGPU問題に関連しているかどうかを確認します。 SageMaker は、ヘルスチェックの結果に基づいて次のアクションを実行します。
エラーが回復可能で、インスタンスを再起動するか、 をリセットすることで修正できる場合GPU、 SageMaker はインスタンスを再起動します。
エラーが復旧できず、置き換えが必要な GPU が原因で発生した場合、 SageMaker はインスタンスを置き換えます。
インスタンスは、 SageMaker クラスター修復プロセスの一環として置き換えられるか再起動されます。このプロセス中に、トレーニングジョブのステータスに次のメッセージが表示されます。
Repairing training cluster due to hardware failure
SageMaker はクラスターを最大 10
回修復しようとします。クラスターの修復が成功すると、 SageMaker は前のチェックポイントからトレーニングジョブを自動的に再起動します。クラスターの修復に失敗すると、トレーニングジョブも失敗します。クラスター修復プロセスに対して請求されることはありません。トレーニングジョブが失敗しない限り、クラスターの修復は開始されません。ウォームプールクラスターでGPU問題が検出されると、クラスターは修復モードになり、障害のあるインスタンスを再起動または置き換えます。修復後も、クラスターはウォームプールクラスターとして使用できます。
前述のクラスターとインスタンスの修復プロセスを次の図に示します。