翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
推奨される耐障害性設定
ディープヘルスチェックを有効にすると、新しいインスタンスが HyperPod クラスターに追加されるたびに (create-cluster 中または自動ノード交換中)、新しいインスタンスはディープヘルスチェックプロセス (インスタンスレベルのストレステスト) を約 2 時間実行します。以下は、考えられるケースに応じて推奨される耐障害性設定の組み合わせです。
-
ケース : クラスター内にバックアップリソースとして追加のスペアノードがある場合 (フルキャパシティを使用しない)、またはディープヘルスチェックプロセスがエラーが発生しにくいインスタンスを取得するまで約 2 時間待機できる場合。
推奨事項 : クラスターライフサイクル全体でディープヘルスチェック設定を有効にします。ノードの自動復旧設定はデフォルトで有効になっています。
-
ケース : 追加のバックアップノードがない場合 (キャパシティはトレーニング負荷に完全に使用されます)。トレーニングジョブを再開するには、できるだけ早く代替ノードを取得する必要があります。
推奨事項: クラスターの作成中にディープヘルスチェックを有効にし、クラスターの作成後にディープヘルスチェック設定をオフにします。ノードの自動復旧設定はデフォルトで有効になっています。
-
ケース : 追加のバックアップノードがなく、約 2 時間のディープヘルスチェックプロセス (小さなクラスター) を待つ必要がない場合。
推奨事項 : クラスターのライフサイクル全体でディープヘルスチェック設定を無効にします。ノードの自動復旧設定はデフォルトで有効になっています。
障害からトレーニングジョブをすぐに再開する場合は、クラスターにバックアップリソースとして追加のスペアノードがあることを確認してください。