Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Supponiamo che l'ambiente di elaborazione contenga risorse di elaborazione, ma che i lavori non vadano oltre tale stato. RUNNABLE
Quindi, è probabile che qualcosa impedisca l'inserimento dei lavori su una risorsa di elaborazione e causi il blocco delle code di lavoro. Ecco come sapere se il lavoro è in attesa del suo turno o se è bloccato e blocca la coda.
Se AWS Batch rileva che hai un RUNNABLE
lavoro a capo e blocca la coda, riceverai un Risorsa: eventi bloccati in Job queue evento da Amazon CloudWatch Events con il motivo. Lo stesso motivo viene aggiornato anche nel statusReason
campo come parte di ListJobs
and DescribeJobs
API calls.
Facoltativamente, è possibile configurare il jobStateTimeLimitActions
parametro tramite CreateJobQueue
e UpdateJobQueue
APIazioni.
Nota
Attualmente, l'unica azione che è possibile eseguire jobStateLimitActions.action
è annullare un lavoro.
Il jobStateTimeLimitActions
parametro viene utilizzato per specificare una serie di azioni da AWS Batch eseguire sui lavori in uno stato specifico. È possibile impostare una soglia temporale in secondi tramite il maxTimeSeconds
campo.
Quando un lavoro si trova in uno RUNNABLE
stato definitostatusReason
, AWS Batch esegue l'azione specificata dopo maxTimeSeconds
che è trascorsa.
Ad esempio, è possibile impostare il jobStateTimeLimitActions
parametro in modo che attenda fino a 4 ore per qualsiasi lavoro nello RUNNABLE
stato in cui è in attesa che diventi disponibile una capacità sufficiente. È possibile farlo impostando statusReason
su CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY
e maxTimeSeconds
su 144000 prima di annullare il lavoro e consentire al lavoro successivo di passare in testa alla coda dei lavori.
Di seguito sono riportati i motivi che AWS Batch fornisce quando rileva che una coda di lavori è bloccata. Questo elenco fornisce i messaggi restituiti dalle azioni ListJobs
e DescribeJobs
API. Questi sono anche gli stessi valori che è possibile definire per il jobStateLimitActions.statusReason
parametro.
-
Motivo: tutti gli ambienti di elaborazione connessi presentano errori di capacità insufficienti. Quando richiesto, AWS Batch rileva le EC2 istanze Amazon che presentano errori di capacità insufficiente. L'annullamento manuale del lavoro consentirà al lavoro successivo di passare in testa alla coda, ma senza risolvere il problema o i problemi relativi al ruolo di servizio, è probabile che anche il lavoro successivo venga bloccato. È consigliabile esaminare e risolvere il problema manualmente.
-
statusReason
messaggio mentre il lavoro è bloccato:CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY - Service cannot fulfill the capacity requested for instance type [instanceTypeName]
-
reason
usato perjobStateTimeLimitActions
:CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY
-
statusReason
messaggio dopo l'annullamento del lavoro:Canceled by JobStateTimeLimit action due to reason: CAPACITY:INSUFFICIENT_INSTANCE_CAPACITY
Nota:
-
Il ruolo AWS Batch di servizio richiede
autoscaling:DescribeScalingActivities
l'autorizzazione affinché questo rilevamento funzioni. Se utilizzi il ruolo Autorizzazioni di ruolo collegate ai servizi per AWS Batch collegato al servizio (SLR) o la policy AWS politica gestita: AWSBatchServiceRolepolitica gestita, non devi intraprendere alcuna azione perché le relative politiche di autorizzazione vengono aggiornate. -
Se utilizzi la politica SLR o la politica gestita, devi aggiungere le
ec2:DescribeSpotFleetRequestHistory
autorizzazioniautoscaling:DescribeScalingActivities
and in modo da poter ricevere gli eventi bloccati della coda dei lavori e lo stato aggiornato dei lavori quando sei attivo.RUNNABLE
Inoltre, sono AWS Batch necessarie queste autorizzazioni per eseguirecancellation
azioni tramite iljobStateTimeLimitActions
parametro anche se sono configurate nella coda dei lavori. -
Nel caso di un processo parallel (MNP) multi-node, se l'ambiente di EC2 calcolo Amazon ad alta priorità collegato presenta
insufficient capacity
errori, blocca la coda anche se in un ambiente di calcolo con priorità inferiore si verifica questo errore.
-
-
Motivo: tutti gli ambienti di calcolo hanno un
maxvCpus
parametro inferiore ai requisiti del lavoro. L'annullamento del lavoro, manualmente o impostando iljobStateTimeLimitActions
parametro onstatusReason
, consente al lavoro successivo di passare in testa alla coda. Facoltativamente, è possibile aumentare ilmaxvCpus
parametro dell'ambiente di calcolo primario per soddisfare le esigenze del lavoro bloccato.-
statusReason
messaggio mentre il lavoro è bloccato:MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE - CE(s) associated with the job queue cannot meet the CPU requirement of the job.
-
reason
usato perjobStateTimeLimitActions
:MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE
-
statusReason
messaggio dopo l'annullamento del lavoro:Canceled by JobStateTimeLimit action due to reason: MISCONFIGURATION:COMPUTE_ENVIRONMENT_MAX_RESOURCE
-
-
Motivo: nessuno degli ambienti di elaborazione dispone di istanze che soddisfano i requisiti del lavoro. Quando un lavoro richiede risorse, AWS Batch rileva che nessun ambiente di calcolo collegato è in grado di ospitare il lavoro in arrivo. L'annullamento del lavoro, manualmente o impostando il
jobStateTimeLimitActions
parametro onstatusReason
, consente al lavoro successivo di passare in testa alla coda. Facoltativamente, puoi ridefinire i tipi di istanze consentiti nell'ambiente di calcolo per aggiungere le risorse di lavoro necessarie.-
statusReason
messaggio mentre il lavoro è bloccato:MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT - The job resource requirement (vCPU/memory/GPU) is higher than that can be met by the CE(s) attached to the job queue.
-
reason
usato perjobStateTimeLimitActions
:MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT
-
statusReason
messaggio dopo l'annullamento del lavoro:Canceled by JobStateTimeLimit action due to reason: MISCONFIGURATION:JOB_RESOURCE_REQUIREMENT
-
-
Motivo: tutti gli ambienti di elaborazione presentano problemi relativi ai ruoli di servizio. Per risolvere questo problema, confronta le autorizzazioni del ruolo di servizio con le AWS politiche gestite per AWS Batch e risolvi eventuali lacune. Nota: non è possibile configurare un'azione programmabile tramite il parametro per risolvere questo errore.
jobStateTimeLimitActions
È consigliabile utilizzare il per evitare errori similiAutorizzazioni di ruolo collegate ai servizi per AWS Batch.
L'annullamento del lavoro, manualmente o impostando il
jobStateTimeLimitActions
parametro onstatusReason
, consente al lavoro successivo di passare in testa alla coda. Senza risolvere il problema o i problemi relativi al ruolo di servizio, è probabile che anche il lavoro successivo venga bloccato. È consigliabile esaminare e risolvere il problema manualmente.-
statusReason
messaggio mentre il lavoro è bloccato:MISCONFIGURATION:SERVICE_ROLE_PERMISSIONS – Batch service role has a permission issue.
-
-
Motivo: tutti gli ambienti di elaborazione non sono validi. Per ulteriori informazioni, consulta INVALIDambiente di calcolo. Nota: non è possibile configurare un'azione programmabile tramite il
jobStateTimeLimitActions
parametro per risolvere questo errore.-
statusReason
messaggio mentre il lavoro è bloccato:ACTION_REQUIRED - CE(s) associated with the job queue are invalid.
-
-
Motivo: AWS Batch ha rilevato una coda bloccata, ma non è in grado di determinarne il motivo. Nota: non è possibile configurare un'azione programmabile tramite il
jobStateTimeLimitActions
parametro per risolvere questo errore. Per ulteriori informazioni sulla risoluzione dei problemi, vedi Perché il mio AWS Batch lavoro è bloccato RUNNABLE AWS in Re:post. -
statusReason
messaggio mentre il lavoro è bloccato:UNDETERMINED - Batch job is blocked, root cause is undetermined.
-
Se non hai ricevuto un evento da CloudWatch Events o hai ricevuto l'evento con motivo sconosciuto, ecco alcune cause comuni di questo problema.
- Il driver di
awslogs
registro non è configurato sulle tue risorse di calcolo -
AWS Batch i job inviano le proprie informazioni di registro a CloudWatch Logs. Per abilitare questa opzione, è necessario configurare le risorse di calcolo per utilizzare il driver di log
awslogs
. Supponiamo di basare la tua risorsa di calcolo AMI su Amazon ECS Optimized AMI (o Amazon Linux). Quindi, questo driver viene registrato per impostazione predefinita nelecs-init
pacchetto. Supponiamo ora di utilizzare una base AMI diversa. Quindi, devi verificare che il driver diawslogs
log sia specificato come driver di registro disponibile con la variabile diECS_AVAILABLE_LOGGING_DRIVERS
ambiente all'avvio dell'agente Amazon ECS Container. Per ulteriori informazioni, consulta Specificazione delle risorse di calcolo AMI e Tutorial: Creare una risorsa di calcolo AMI. - Risorse insufficienti
-
Se le definizioni dei processi specificano più CPU risorse di memoria di quelle che le risorse di elaborazione possono allocare, i lavori non vengono mai collocati. Ad esempio, supponiamo che il tuo job specifichi 4 GiB di memoria e che le tue risorse di calcolo abbiano meno di quella disponibile. Quindi accade che il lavoro non possa essere collocato su quelle risorse di calcolo. In tal caso, è necessario ridurre la quantità di memoria specificata nella definizione di processo o aggiungere risorse di calcolo maggiori all'ambiente. Parte della memoria è riservata all'agente ECS container Amazon e ad altri processi di sistema critici. Per ulteriori informazioni, consulta Gestione della memoria delle risorse di calcolo.
- Nessun accesso a Internet per le risorse di elaborazione
Le risorse di calcolo devono accedere per comunicare con l'endpoint del ECS servizio Amazon. Ciò può avvenire tramite un VPC endpoint di interfaccia o tramite le risorse di calcolo con indirizzi IP pubblici.
Per ulteriori informazioni sugli VPC endpoint di interfaccia, consulta Amazon ECS Interface VPC Endpoints (AWS PrivateLink) nella Amazon Elastic Container Service Developer Guide.
Se non disponi di un VPC endpoint di interfaccia configurato e le risorse di calcolo delle non dispongono di indirizzi IP pubblici, è necessario utilizzare la traduzione degli indirizzi di rete (NAT) per fornire questo accesso. Per ulteriori informazioni, consulta i NATgateway nella Amazon VPC User Guide . Per ulteriori informazioni, consulta Tutorial: Crea un VPC.
- Limite di EC2 istanze Amazon raggiunto
-
Il numero di EC2 istanze Amazon in cui il tuo account può avviare Regione AWS è determinato dalla quota di EC2 istanze. Alcuni tipi di istanze hanno anche una per-instance-type quota. Per ulteriori informazioni sulla quota di EC2 istanze Amazon del tuo account, incluso come richiedere un aumento del limite, consulta Amazon EC2 Service Limits nella Amazon EC2 User Guide.
- L'agente ECS container Amazon non è installato
-
L'agente ECS container Amazon deve essere installato su Amazon Machine Image (AMI) per consentire l' AWS Batch esecuzione dei lavori. L'agente ECS container Amazon è installato per impostazione predefinita su Amazon ECS OptimizedAMIs. Per ulteriori informazioni sull'agente ECS container Amazon, consulta Amazon ECSContainer Agent nella Amazon Elastic Container Service Developer Guide.
Per ulteriori informazioni, consulta Perché il mio AWS Batch lavoro è bloccato nello RUNNABLE
status?