Riparazioni del cluster in caso di errori GPU

Se stai eseguendo un processo di formazione che non va a buon fineGPU, l' SageMaker IA eseguirà un controllo dello stato di GPU salute per verificare se l'errore è correlato a un GPU problema. SageMaker L'IA intraprende le seguenti azioni in base ai risultati del controllo sanitario:

Se l'errore è recuperabile e può essere corretto riavviando l'istanza o reimpostandolaGPU, SageMaker AI riavvierà l'istanza.
Se l'errore non è recuperabile ed è causato da un'istanza GPU che deve essere sostituita, l'IA sostituirà l'istanza. SageMaker

L'istanza viene sostituita o riavviata come parte di un processo di riparazione del cluster SageMaker AI. Durante questo processo, vedrai il seguente messaggio nello stato del tuo lavoro di formazione:

Repairing training cluster due to hardware failure

SageMaker L'IA tenterà di riparare il cluster fino a 10 volte. Se la riparazione del cluster ha esito positivo, l' SageMaker IA riavvierà automaticamente il processo di formazione dal checkpoint precedente. Se la riparazione del cluster fallisce, anche il processo di formazione fallirà. Non ti viene addebitato il costo del processo di riparazione del cluster. Le riparazioni dei cluster non verranno avviate a meno che il processo di formazione non fallisca. Se viene rilevato un GPU problema per un cluster Warmpool, il cluster entrerà in modalità di riparazione per riavviare o sostituire l'istanza difettosa. Dopo la riparazione, il cluster può ancora essere utilizzato come cluster warmpool.

Il processo di riparazione di cluster e istanze descritto in precedenza è illustrato nel diagramma seguente:

The cluster and instance repair process.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Riprendi l'allenamento da un checkpoint

Implementa modelli per l'inferenza