Errores comunes y solución de problemas - AWS Batch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Errores comunes y solución de problemas

Los errores en AWS Batch suelen producirse en el nivel de la aplicación o se deben a configuraciones de instancias que no cumplen los requisitos específicos de su trabajo. Otros problemas incluyen que los trabajos se atasquen en un estado RUNNABLE o que los entornos de computación se queden atascados en un estado INVALID. Para obtener más información sobre la solución de problemas de los trabajos que se quedan atascados en el estado RUNNABLE, consulte Trabajos bloqueados en estado RUNNABLE. Para obtener información sobre cómo solucionar problemas de entornos de computación en un estado INVALID, consulte Entorno de computación INVALID.

  • Compruebe las cuotas de vCPU puntuales de Amazon EC2: compruebe que sus cuotas de servicio actuales cumplen los requisitos del trabajo. Por ejemplo, supongamos que su cuota de servicio actual es de 256 vCPU y que el trabajo requiere 10 000 vCPU. Entonces, la cuota de servicio no cumple con el requisito del trabajo. Para obtener más información e instrucciones de solución de problemas, consulte Service quotas de Amazon EC2 y ¿Cómo puedo aumentar la cuota de servicio de mis recursos de Amazon EC2?.

  • Los trabajos fallan antes de que se ejecute la aplicación: algunos trabajos pueden fallar debido a un error DockerTimeoutError o a un error CannotPullContainerError. Para obtener información sobre la solución de problemas, consulte ¿Cómo se resuelve el error “DockerTimeoutError” en AWS Batch?.

  • Direcciones IP insuficientes: la cantidad de direcciones IP de la VPC y las subredes puede limitar la cantidad de instancias que se pueden crear. Utilice enrutamiento entre dominios sin clases (CIDR) para proporcionar más direcciones IP de las necesarias para ejecutar sus cargas de trabajo. Si es necesario, también puede crear una VPC dedicada con un gran espacio de direcciones. Por ejemplo, puede crear una VPC con varios CIDR en 10.x.0.0/16 y una subred en cada zona de disponibilidad con un CIDR de 10.x.y.0/17. En este ejemplo, x está entre 1 y 4 e y es 0 o 128. Esta configuración proporciona 36 000 direcciones IP en cada subred.

    VPC diagram showing 6 private subnets with different CIDR ranges across 3 Availability Zones.
  • Compruebe que las instancias estén registradas en Amazon EC2: si ve sus instancias en la consola de Amazon EC2, pero no ve ninguna instancia de contenedor de Amazon Elastic Container Service en su clúster de Amazon ECS, es posible que el agente de Amazon ECS no esté instalado en una Imagen de máquina de Amazon (AMI). Es posible que el agente de Amazon ECS, los datos de Amazon EC2 de su AMI o la plantilla de lanzamiento tampoco estén configurados correctamente. Para aislar la causa raíz, cree una instancia Amazon EC2 independiente o conéctese a una instancia existente mediante SSH. Para obtener más información, consulte Configuración del agente contenedor de Amazon ECS, Ubicaciones de los archivos de registro de Amazon ECS y AMI de recursos de computación.

  • Revise el panel de AWS: revise el panel de AWS para comprobar el estado del trabajo esperado y que el entorno de computación se escala según lo esperado. También puede revisar los registros de trabajos en CloudWatch.

  • Compruebe que la instancia esté creada: si se crea una instancia, significa que su entorno de computación se ha escalado según lo previsto. Si sus instancias no se crean, busque las subredes asociadas en su entorno de computación para cambiarlas. Para obtener más información, consulte Verificar una actividad de escalado para un grupo de escalado automático.

    También le recomendamos que verifique que sus instancias pueden cumplir con los requisitos de trabajo relacionados. Por ejemplo, un trabajo puede requerir 1 TiB de memoria, pero el entorno de computación usa un tipo de instancia C5 que está limitado a 192 GB de memoria.

  • Verifique que sus instancias estén siendo solicitadas por AWS Batch: consulte el historial del grupo de escalado automático para verificar que sus instancias estén siendo solicitadas por AWS Batch. Esto indica cómo Amazon EC2 intenta adquirir instancias. Si recibe un error que indica que Amazon EC2 Spot no puede adquirir una instancia en una zona de disponibilidad específica, es posible que la zona de disponibilidad no ofrezca una familia de instancias específica.

  • Compruebe que las instancias se registren en Amazon ECS: si ve instancias en la consola de Amazon EC2, pero no hay instancias de contenedor de Amazon ECS en su clúster de Amazon ECS, es posible que el agente de Amazon ECS no esté instalado en la Imagen de máquina de Amazon (AMI). Además, es posible que el agente de Amazon ECS, los datos de Amazon EC2 de su AMI o la plantilla de lanzamiento tampoco estén configurados correctamente. Para aislar la causa raíz, cree una instancia Amazon EC2 independiente o conéctese a una instancia existente mediante SSH. Para obtener más información, consulte Archivo de configuración del agente de CloudWatch: sección de registros, Ubicaciones de archivos de registro de Amazon ECS y AMI de recursos de computación.

  • Abra un ticket de soporte: si aún tiene problemas después de solucionar algunos problemas y tiene un plan de soporte, abra un ticket de soporte. En el ticket de soporte, asegúrese de incluir información sobre el problema, las especificaciones de la carga de trabajo, la configuración y los resultados de las pruebas. Para obtener más información, consulte Comparar AWS Support planes.

  • Revise los foros de AWS Batch y HPC: para obtener más información, consulte los foros de AWS Batch y HPC.

  • Revise el panel de monitoreo del tiempo de ejecución de AWS Batch: este panel utiliza una arquitectura sin servidor para capturar eventos de Amazon ECS AWS Batch, y Amazon EC2 a fin de proporcionar información sobre los trabajos y las instancias. Para obtener más información, consulte Solución de paneles de monitoreo de tiempo de ejecución de AWS Batch.