Lavori bloccati in uno status `RUNNABLE`

Modalità Focus

Questa pagina ti è stata utile?

Lavori bloccati in uno status RUNNABLE - AWS Batch

Supponiamo che l'ambiente di elaborazione contenga risorse di elaborazione, ma che i lavori non vadano oltre tale stato. RUNNABLE Quindi, è probabile che qualcosa impedisca l'inserimento dei lavori su una risorsa di elaborazione e causi il blocco delle code di lavoro. Ecco come sapere se il lavoro è in attesa del suo turno o se è bloccato e blocca la coda.

Se AWS Batch rileva che hai un RUNNABLE lavoro a capo e blocca la coda, riceverai un Risorsa: eventi bloccati in Job queue evento da Amazon CloudWatch Events con il motivo. Lo stesso motivo viene aggiornato anche nel statusReason campo come parte di ListJobs and DescribeJobs API calls.

Facoltativamente, è possibile configurare il jobStateTimeLimitActions parametro tramite CreateJobQueue e UpdateJobQueueAPIazioni.

Nota

Attualmente, l'unica azione che è possibile eseguire jobStateLimitActions.action è annullare un lavoro.

Il jobStateTimeLimitActions parametro viene utilizzato per specificare una serie di azioni da AWS Batch eseguire sui lavori in uno stato specifico. È possibile impostare una soglia temporale in secondi tramite il maxTimeSeconds campo.

Quando un lavoro si trova in uno RUNNABLE stato definitostatusReason, AWS Batch esegue l'azione specificata dopo maxTimeSeconds che è trascorsa.

Ad esempio, è possibile impostare il jobStateTimeLimitActions parametro in modo che attenda fino a 4 ore per qualsiasi lavoro nello RUNNABLE stato in cui è in attesa che diventi disponibile una capacità sufficiente. È possibile farlo impostando statusReason su CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY e maxTimeSeconds su 144000 prima di annullare il lavoro e consentire al lavoro successivo di passare in testa alla coda dei lavori.

Di seguito sono riportati i motivi che AWS Batch fornisce quando rileva che una coda di lavori è bloccata. Questo elenco fornisce i messaggi restituiti dalle azioni ListJobs e DescribeJobsAPI. Questi sono anche gli stessi valori che è possibile definire per il jobStateLimitActions.statusReason parametro.

Motivo: tutti gli ambienti di elaborazione connessi presentano errori di capacità insufficienti. Quando richiesto, AWS Batch rileva le EC2 istanze Amazon che presentano errori di capacità insufficiente. L'annullamento manuale del lavoro consentirà al lavoro successivo di passare in testa alla coda, ma senza risolvere il problema o i problemi relativi al ruolo di servizio, è probabile che anche il lavoro successivo venga bloccato. È consigliabile esaminare e risolvere il problema manualmente.
- statusReasonmessaggio mentre il lavoro è bloccato: CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY - Service cannot fulfill the capacity requested for instance type [instanceTypeName]
- reasonusato perjobStateTimeLimitActions: CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY
- statusReasonmessaggio dopo l'annullamento del lavoro: Canceled by JobStateTimeLimit action due to reason: CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY
Nota:
1. Il ruolo AWS Batch di servizio richiede autoscaling:DescribeScalingActivities l'autorizzazione affinché questo rilevamento funzioni. Se utilizzi il ruolo Autorizzazioni di ruolo collegate ai servizi per AWS Batch collegato al servizio (SLR) o la policy AWS politica gestita: AWSBatchServiceRolepolitica gestita, non devi intraprendere alcuna azione perché le relative politiche di autorizzazione vengono aggiornate.
2. Se utilizzi la politica SLR o la politica gestita, devi aggiungere le ec2:DescribeSpotFleetRequestHistory autorizzazioni autoscaling:DescribeScalingActivities and in modo da poter ricevere gli eventi bloccati della coda dei lavori e lo stato aggiornato dei lavori quando sei attivo. RUNNABLE Inoltre, sono AWS Batch necessarie queste autorizzazioni per eseguire cancellation azioni tramite il jobStateTimeLimitActions parametro anche se sono configurate nella coda dei lavori.
3. Nel caso di un processo parallel (MNP) multi-node, se l'ambiente di EC2 calcolo Amazon ad alta priorità collegato presenta insufficient capacity errori, blocca la coda anche se in un ambiente di calcolo con priorità inferiore si verifica questo errore.
Motivo: tutti gli ambienti di calcolo hanno un maxvCpusparametro inferiore ai requisiti del lavoro. L'annullamento del lavoro, manualmente o impostando il jobStateTimeLimitActions parametro onstatusReason, consente al lavoro successivo di passare in testa alla coda. Facoltativamente, è possibile aumentare il maxvCpus parametro dell'ambiente di calcolo primario per soddisfare le esigenze del lavoro bloccato.
- statusReasonmessaggio mentre il lavoro è bloccato: MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE - CE(s) associated with the job queue cannot meet the CPU requirement of the job.
- reasonusato perjobStateTimeLimitActions: MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE
- statusReasonmessaggio dopo l'annullamento del lavoro: Canceled by JobStateTimeLimit action due to reason: MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE
Motivo: nessuno degli ambienti di elaborazione dispone di istanze che soddisfano i requisiti del lavoro. Quando un lavoro richiede risorse, AWS Batch rileva che nessun ambiente di calcolo collegato è in grado di ospitare il lavoro in arrivo. L'annullamento del lavoro, manualmente o impostando il jobStateTimeLimitActions parametro onstatusReason, consente al lavoro successivo di passare in testa alla coda. Facoltativamente, puoi ridefinire i tipi di istanze consentiti nell'ambiente di calcolo per aggiungere le risorse di lavoro necessarie.
- statusReasonmessaggio mentre il lavoro è bloccato: MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT - The job resource requirement (vCPU/memory/GPU) is higher than that can be met by the CE(s) attached to the job queue.
- reasonusato perjobStateTimeLimitActions: MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT
- statusReasonmessaggio dopo l'annullamento del lavoro: Canceled by JobStateTimeLimit action due to reason: MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT
Motivo: tutti gli ambienti di elaborazione presentano problemi relativi ai ruoli di servizio. Per risolvere questo problema, confronta le autorizzazioni del ruolo di servizio con le AWS politiche gestite per AWS Batch e risolvi eventuali lacune. Nota: non è possibile configurare un'azione programmabile tramite il parametro per risolvere questo errore. jobStateTimeLimitActions

È consigliabile utilizzare il per evitare errori similiAutorizzazioni di ruolo collegate ai servizi per AWS Batch.

L'annullamento del lavoro, manualmente o impostando il jobStateTimeLimitActions parametro onstatusReason, consente al lavoro successivo di passare in testa alla coda. Senza risolvere il problema o i problemi relativi al ruolo di servizio, è probabile che anche il lavoro successivo venga bloccato. È consigliabile esaminare e risolvere il problema manualmente.
- statusReasonmessaggio mentre il lavoro è bloccato: MISCONFIGURATION:SERVICE_ROLE_PERMISSIONS – Batch service role has a permission issue.
Motivo: tutti gli ambienti di elaborazione non sono validi. Per ulteriori informazioni, consulta INVALIDambiente di calcolo. Nota: non è possibile configurare un'azione programmabile tramite il jobStateTimeLimitActions parametro per risolvere questo errore.
- statusReasonmessaggio mentre il lavoro è bloccato: ACTION_REQUIRED - CE(s) associated with the job queue are invalid.
Motivo: AWS Batch ha rilevato una coda bloccata, ma non è in grado di determinarne il motivo. Nota: non è possibile configurare un'azione programmabile tramite il jobStateTimeLimitActions parametro per risolvere questo errore. Per ulteriori informazioni sulla risoluzione dei problemi, vedi Perché il mio AWS Batch lavoro è bloccato RUNNABLE AWS in Re:post.
- statusReasonmessaggio mentre il lavoro è bloccato: UNDETERMINED - Batch job is blocked, root cause is undetermined.

Se non hai ricevuto un evento da CloudWatch Events o hai ricevuto l'evento con motivo sconosciuto, ecco alcune cause comuni di questo problema.

Il driver di awslogs registro non è configurato sulle tue risorse di calcolo

AWS Batch i job inviano le proprie informazioni di registro a CloudWatch Logs. Per abilitare questa opzione, è necessario configurare le risorse di calcolo per utilizzare il driver di log awslogs. Supponiamo di basare la tua risorsa di calcolo AMI su Amazon ECS Optimized AMI (o Amazon Linux). Quindi, questo driver viene registrato per impostazione predefinita nel ecs-init pacchetto. Supponiamo ora di utilizzare una base AMI diversa. Quindi, devi verificare che il driver di awslogs log sia specificato come driver di registro disponibile con la variabile di ECS_AVAILABLE_LOGGING_DRIVERS ambiente all'avvio dell'agente Amazon ECS Container. Per ulteriori informazioni, consulta Specificazione delle risorse di calcolo AMI e Tutorial: Creare una risorsa di calcolo AMI.

Risorse insufficienti

Se le definizioni dei processi specificano più CPU risorse di memoria di quelle che le risorse di elaborazione possono allocare, i lavori non vengono mai collocati. Ad esempio, supponiamo che il tuo job specifichi 4 GiB di memoria e che le tue risorse di calcolo abbiano meno di quella disponibile. Quindi accade che il lavoro non possa essere collocato su quelle risorse di calcolo. In tal caso, è necessario ridurre la quantità di memoria specificata nella definizione di processo o aggiungere risorse di calcolo maggiori all'ambiente. Parte della memoria è riservata all'agente ECS container Amazon e ad altri processi di sistema critici. Per ulteriori informazioni, consulta Gestione della memoria delle risorse di calcolo.

Nessun accesso a Internet per le risorse di elaborazione

Le risorse di calcolo devono accedere per comunicare con l'endpoint del ECS servizio Amazon. Ciò può avvenire tramite un VPC endpoint di interfaccia o tramite le risorse di calcolo con indirizzi IP pubblici.

Per ulteriori informazioni sugli VPC endpoint di interfaccia, consulta Amazon ECS Interface VPC Endpoints (AWS PrivateLink) nella Amazon Elastic Container Service Developer Guide.

Se non disponi di un VPC endpoint di interfaccia configurato e le risorse di calcolo delle non dispongono di indirizzi IP pubblici, è necessario utilizzare la traduzione degli indirizzi di rete (NAT) per fornire questo accesso. Per ulteriori informazioni, consulta i NATgateway nella Amazon VPC User Guide . Per ulteriori informazioni, consulta Tutorial: Crea un VPC.

Limite di EC2 istanze Amazon raggiunto

Il numero di EC2 istanze Amazon in cui il tuo account può avviare Regione AWS è determinato dalla quota di EC2 istanze. Alcuni tipi di istanze hanno anche una per-instance-type quota. Per ulteriori informazioni sulla quota di EC2 istanze Amazon del tuo account, incluso come richiedere un aumento del limite, consulta Amazon EC2 Service Limits nella Amazon EC2 User Guide.

L'agente ECS container Amazon non è installato

L'agente ECS container Amazon deve essere installato su Amazon Machine Image (AMI) per consentire l' AWS Batch esecuzione dei lavori. L'agente ECS container Amazon è installato per impostazione predefinita su Amazon ECS OptimizedAMIs. Per ulteriori informazioni sull'agente ECS container Amazon, consulta Amazon ECSContainer Agent nella Amazon Elastic Container Service Developer Guide.

Per ulteriori informazioni, consulta Perché il mio AWS Batch lavoro è bloccato nello RUNNABLE status? in Re:post.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

INVALIDambiente di calcolo

Istanze Spot non taggate al momento della creazione

Seleziona le tue preferenze relative ai cookie

Personalizza le tue preferenze relative ai cookie

Essenziali

Prestazione

Funzionali

Pubblicitari

Impossibile salvare le preferenze dei cookie

Lavori bloccati in uno status `RUNNABLE`

Questa pagina ti è stata utile?

Nota

Argomento successivo:

Argomento precedente:

Hai bisogno di aiuto?