Erros Comuns e Solução de Problemas - AWS Batch

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Erros Comuns e Solução de Problemas

Os erros AWS Batch geralmente ocorrem no nível do aplicativo ou são causados por configurações de instância que não atendem aos requisitos específicos do trabalho. Outros problemas incluem trabalhos presos no status RUNNABLE ou ambientes computacionais presos em um estado INVALID. Para obter mais informações sobre soluções de problemas de trabalhos presos no status RUNNABLE, consulte Trabalhos presos no status RUNNABLE. Para obter informações sobre solução de problemas em ambientes de computação em um estado INVALID, consulte Ambiente de computação do INVALID.

  • Verifique as cotas de vCPU do Amazon EC2 Spot — Verifique se suas cotas de serviço atuais atendem aos requisitos do trabalho. Por exemplo, suponha que sua cota de serviço atual seja 256 v CPUs e o trabalho exija 10.000 v. CPUs Então, a cota de serviço não atende aos requisitos do trabalho. Para obter mais informações e instruções de solução de problemas, consulte Cotas de EC2 serviços da Amazon e Como faço para aumentar a cota de serviços da minha Amazon? EC2resources .

  • Trabalhos com falha antes da execução do aplicativo: Alguns trabalhos podem falhar devido a um erro DockerTimeoutError ou a um erro CannotPullContainerError. Para obter informações sobre solução de problemas, consulte Como faço para resolver o erro DockerTimeoutError "" em AWS Batch? .

  • Endereços IP insuficientes: O número de endereçamento de IP na sua VPC e sub redes pode limitar o número de instâncias que você pode criar. Use roteamentos entre domínios sem classe (CIDRs) para fornecer mais endereços IP do que o necessário para executar suas cargas de trabalho. Se necessário, você também pode compilar uma VPC dedicada com grande espaço de endereço. Por exemplo, você pode criar uma VPC com várias entradas 10.x.0.0/16 e uma sub-rede CIDRs em cada zona de disponibilidade com um CIDR de. 10.x.y.0/17 Neste exemplo, x está entre 1-4 e y é 0 ou 128. Essa configuração fornece 36.000 endereços IP em cada sub-rede.

    VPC diagram showing 6 private subnets with different CIDR ranges across 3 Availability Zones.
  • Verifique se as instâncias estão registradas na Amazon EC2 — Se você vê suas instâncias no EC2 console da Amazon, mas nenhuma instância de contêiner do Amazon Elastic Container Service em seu cluster do Amazon ECS, o agente do Amazon ECS pode não estar instalado em uma Amazon Machine Image (AMI). O agente do Amazon ECS, os EC2 dados da Amazon em sua AMI ou o modelo de lançamento também podem não estar configurados corretamente. Para isolar a causa raiz, crie uma EC2 instância separada da Amazon ou conecte-se a uma instância existente usando SSH. Para obter mais informações, consulte Configuração do Agente de Contêiner do Amazon ECS, Locais de Arquivo de Log do Amazon ECS e Recurso computacional AMIs.

  • Revise o AWS painel — revise o AWS painel para verificar se os estados de trabalho esperados e se o ambiente computacional é dimensionado conforme o esperado. Você também pode revisar os registros de trabalhos CloudWatch.

  • Verifique se sua instância foi criada: Se uma instância tiver sido criada, significa que seu ambiente de computação foi escalado conforme o esperado. Se suas instâncias não foram criadas, descubra as sub-redes associadas em seu ambiente de computação para alterá-las. Para obter mais informações, consulte Verificar uma Ação em Escala para um Grupo do Auto Scaling.

    Também recomendamos que você verifique se suas instâncias podem atender aos requisitos de trabalho relacionados. Por exemplo, um trabalho pode exigir 1 TiB de memória, mas o ambiente de computação utiliza um tipo de instância C5 limitado a 192 GB de memória.

  • Verifique se suas instâncias estão sendo solicitadas por AWS Batch — Verifique o histórico do grupo Auto Scaling para verificar se suas instâncias estão sendo solicitadas por. AWS Batch Essa é uma indicação de como a Amazon EC2 tenta adquirir instâncias. Se você receber um erro informando que o Amazon EC2 Spot não pode adquirir uma instância em uma zona de disponibilidade específica, isso pode ser porque a zona de disponibilidade não oferece uma família de instâncias específica.

  • Verifique se as instâncias estão registradas no Amazon ECS — Se você vê instâncias no EC2 console da Amazon, mas nenhuma instância de contêiner do Amazon ECS em seu cluster do Amazon ECS, o agente do Amazon ECS pode não estar instalado na Amazon Machine Image (AMI). Além disso, o agente do Amazon ECS, os EC2 dados da Amazon em sua AMI ou o modelo de execução podem não estar configurados corretamente. Para isolar a causa raiz, crie uma EC2 instância separada da Amazon ou conecte-se a uma instância existente usando SSH. Para obter mais informações, consulte o arquivo de configuração do CloudWatch agente: seção Logs, Localizações dos arquivos de log do Amazon ECS e. Recurso computacional AMIs

  • Abra um tíquete de suporte: Se ainda estiver enfrentando problemas após uma solução de problemas e tiver um Plano do Support, abra um tíquete de suporte. No tíquete de suporte, certifique-se de incluir informações sobre o problema, as especificações da workload, a configuração e os resultados do teste. Para obter mais informações, consulte Comparar Suporte planos.

  • Analise os fóruns AWS Batch e HPC — Para obter mais informações, consulte os fóruns AWS Batche HPC.

  • Analise o painel AWS Batch de monitoramento de tempo de execução — Esse painel usa uma arquitetura sem servidor para capturar eventos do Amazon ECS AWS Batch e da Amazon EC2 para fornecer informações sobre trabalhos e instâncias. Para obter mais informações, consulte AWS Batch Solução de Painéis de Monitoramento de Runtime.