Reparos de clusters para GPU erros - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Reparos de clusters para GPU erros

Se você estiver executando um trabalho de treinamento que falhe em umGPU, SageMaker executará uma verificação de GPU integridade para ver se a falha está relacionada a um GPU problema. SageMaker executa as seguintes ações com base nos resultados da verificação de saúde:

  • Se o erro for recuperável e puder ser corrigido reinicializando a instância ou redefinindo aGPU, a instância SageMaker será reinicializada.

  • Se o erro não for recuperável e causado por um GPU que precise ser substituído, SageMaker substituirá a instância.

A instância é substituída ou reinicializada como parte de um processo de reparo do SageMaker cluster. Durante esse processo, você verá a seguinte mensagem no status do seu trabalho de treinamento:

Repairing training cluster due to hardware failure

SageMaker tentará reparar o cluster até 10 vezes. Se o reparo do cluster for bem-sucedido, SageMaker reiniciará automaticamente o trabalho de treinamento a partir do ponto de verificação anterior. Se o reparo do cluster falhar, o trabalho de treinamento também falhará. Você não será cobrado pelo processo de reparo do cluster. Os reparos do cluster não serão iniciados a menos que seu trabalho de treinamento falhe. Se for detectado um GPU problema em um cluster de warmpool, o cluster entrará no modo de reparo para reinicializar ou substituir a instância com defeito. Após o reparo, o cluster ainda pode ser usado como um cluster de piscina aquecida.

O processo de reparo de clusters e instâncias descrito anteriormente é mostrado no diagrama a seguir:

The cluster and instance repair process.