Configurazioni di resilienza consigliate - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazioni di resilienza consigliate

Quando i controlli approfonditi dello stato sono abilitati, ogni volta che viene aggiunta una nuova istanza al HyperPod cluster (durante la creazione del cluster o tramite la sostituzione automatica del nodo), la nuova istanza viene sottoposta al processo di controllo approfondito (stress test a livello di istanza) per circa un paio d'ore. Le seguenti sono le combinazioni di configurazione della resilienza suggerite a seconda dei casi possibili.

  1. Caso: quando si dispone di nodi di riserva aggiuntivi all'interno di un cluster come risorse di backup (senza utilizzare la piena capacità) o se è possibile attendere circa 2 ore prima che il processo di controllo approfondito dello stato abbia le istanze meno soggette a errori.

    Raccomandazione: abilita la configurazione Deep Health Check per tutto il ciclo di vita del cluster. La configurazione di ripristino automatico del nodo è abilitata per impostazione predefinita.

  2. Caso: quando non si dispone di nodi di backup aggiuntivi (la capacità è completamente utilizzata per alcuni carichi di allenamento). Desideri ottenere i nodi sostitutivi il prima possibile per riprendere il lavoro di formazione.

    Raccomandazione: abilita il controllo approfondito dello stato durante la creazione del cluster, quindi disattiva la configurazione del controllo approfondito dello stato dopo la creazione del cluster. La configurazione di ripristino automatico del nodo è abilitata per impostazione predefinita.

  3. Caso: quando non disponi di nodi di backup aggiuntivi e non vuoi attendere il processo di controllo approfondito dello stato di circa 2 ore (piccoli cluster).

    Raccomandazione: disabilita la configurazione del deep health check per tutto il ciclo di vita del cluster. La configurazione di ripristino automatico del nodo è abilitata per impostazione predefinita.

Se desideri riprendere immediatamente il processo di formazione dopo un errore, assicurati di disporre di nodi di riserva aggiuntivi come risorse di backup nel cluster.