Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Reparos de cluster para erros de GPU

Modo de foco
Reparos de cluster para erros de GPU - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Se você estiver executando um trabalho de treinamento que falha em uma GPU, a SageMaker IA executará uma verificação de integridade da GPU para ver se a falha está relacionada a um problema na GPU. SageMaker A IA realiza as seguintes ações com base nos resultados da verificação de integridade:

  • Se o erro for recuperável e puder ser corrigido reinicializando a instância ou redefinindo a GPU, a SageMaker IA reinicializará a instância.

  • Se o erro não for recuperável e for causado por uma GPU que precisa ser substituída, a SageMaker IA substituirá a instância.

A instância é substituída ou reinicializada como parte de um processo de reparo do cluster de SageMaker IA. Durante esse processo, você receberá a seguinte mensagem no status do trabalho de treinamento:

Repairing training cluster due to hardware failure

SageMaker A IA tentará reparar o cluster 10 várias vezes. Se o reparo do cluster for bem-sucedido, a SageMaker IA reiniciará automaticamente o trabalho de treinamento a partir do ponto de verificação anterior. Se o reparo do cluster falhar, o trabalho de treinamento também falhará. Você não será cobrado pelo processo de reparo do cluster. Os reparos do cluster não serão iniciados a menos que o trabalho de treinamento falhe. Se um problema de GPU for detectado em um cluster de grupo de aquecimento, o cluster entrará no modo de reparo para reinicializar ou substituir a instância com defeito. Após o reparo, o cluster ainda pode ser usado como um cluster de grupo de aquecimento.

O processo de reparo de cluster e instância descrito anteriormente do é representado no seguinte diagrama:

The cluster and instance repair process.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.