Configurações de resiliência sugeridas

Quando as verificações profundas de integridade são habilitadas, sempre que uma nova instância é adicionada ao HyperPod cluster (seja durante a criação do cluster ou por meio da substituição automática de nós), a nova instância passa pelo processo de verificação profunda de integridade (testes de estresse no nível da instância) por cerca de algumas horas. A seguir, são sugeridas combinações de configuração de resiliência, dependendo dos casos possíveis.

Caso: quando você tem nós sobressalentes adicionais em um cluster como recursos de backup (sem usar a capacidade total) ou se você pode esperar cerca de 2 horas pelo processo de verificação profunda de integridade para obter as instâncias menos propensas a erros.

Recomendação: habilite a configuração de verificação profunda de integridade em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está ativada por padrão.
Caso: Quando você não tem nós de backup adicionais (a capacidade é totalmente usada para alguma carga de treinamento). Você deseja obter os nós de substituição o mais rápido possível para retomar o trabalho de treinamento.

Recomendação: ative a verificação profunda de integridade durante a criação do cluster e, em seguida, desative a configuração da verificação profunda de integridade após a criação do cluster. A configuração de recuperação automática do nó está habilitada por padrão.
Caso: quando você não tem nós de backup adicionais e não quer esperar pelo processo de verificação profunda de integridade de aproximadamente 2 horas (pequenos clusters).

Recomendação: desative a configuração de verificação profunda de integridade em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

Se você quiser retomar o trabalho de treinamento após uma falha imediatamente, certifique-se de ter nós sobressalentes adicionais como recursos de backup no cluster.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Colocar em quarentena, substituir ou reinicializar manualmente um nó

Executando trabalhos em HyperPod clusters