Configurações de resiliência sugeridas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configurações de resiliência sugeridas

Quando as verificações profundas de integridade são habilitadas, sempre que uma nova instância é adicionada ao HyperPod cluster (seja durante a criação do cluster ou por meio da substituição automática de nós), a nova instância passa pelo processo de verificação profunda de integridade (testes de estresse no nível da instância) por cerca de algumas horas. A seguir, são sugeridas combinações de configuração de resiliência, dependendo dos casos possíveis.

  1. Caso: quando você tem nós sobressalentes adicionais em um cluster como recursos de backup (sem usar a capacidade total) ou se você pode esperar cerca de 2 horas pelo processo de verificação profunda de integridade para obter as instâncias menos propensas a erros.

    Recomendação: habilite a configuração de verificação profunda de integridade em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está ativada por padrão.

  2. Caso: Quando você não tem nós de backup adicionais (a capacidade é totalmente usada para alguma carga de treinamento). Você deseja obter os nós de substituição o mais rápido possível para retomar o trabalho de treinamento.

    Recomendação: ative a verificação profunda de integridade durante a criação do cluster e, em seguida, desative a configuração da verificação profunda de integridade após a criação do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

  3. Caso: quando você não tem nós de backup adicionais e não quer esperar pelo processo de verificação profunda de integridade de aproximadamente 2 horas (pequenos clusters).

    Recomendação: desative a configuração de verificação profunda de integridade em todo o ciclo de vida do cluster. A configuração de recuperação automática do nó está habilitada por padrão.

Se você quiser retomar o trabalho de treinamento após uma falha imediatamente, certifique-se de ter nós sobressalentes adicionais como recursos de backup no cluster.