Ejecuciones de trabajo
La API de ejecuciones de trabajos describe los tipos de datos y la API relacionados con el inicio, la detención o la visualización de ejecuciones de trabajos, y el restablecimiento de marcadores de trabajos, en AWS Glue. El historial de ejecución de trabajos está disponible durante 90 días para su flujo de trabajo y ejecución de trabajos.
Tipos de datos
Estructura JobRun
Contiene información acerca de una ejecución de flujo de trabajo.
Campos
-
Id
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID de la ejecución de este flujo de trabajo.
-
Attempt
: número (entero).El número del intento de ejecución de este flujo de trabajo.
-
PreviousRunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID de la ejecución anterior de este trabajo. Por ejemplo, el
JobRunId
especificado en la acciónStartJobRun
. -
TriggerName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre del disparador que inició esta ejecución de flujo de trabajo.
-
JobName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo que se utiliza en esta ejecución.
-
JobMode
: cadena UTF-8 (valores válidos:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Un modo que describe cómo se creó un trabajo. Los valores válidos son:
-
SCRIPT
: El trabajo se creó con el editor de scripts de AWS Glue Studio. -
VISUAL
: El trabajo se creó con el editor visual de AWS Glue Studio. -
NOTEBOOK
: El trabajo se creó con un cuaderno de sesiones interactivo.
Cuando el campo
JobMode
no aparece o es nulo, se asignaSCRIPT
como valor predeterminado. -
-
JobRunQueuingEnabled
: booleano.Especifica si la fila de ejecución de trabajos está habilitada para la ejecución del trabajo.
Un valor verdadero significa que la fila de ejecución de trabajos está habilitada para las ejecuciones. Si es falso o no está completo, los trabajos ejecutados no se considerarán para ingresar en la fila.
-
StartedOn
: marca temporal.La fecha y la hora en que se inició la ejecución de este flujo de trabajo.
-
LastModifiedOn
: marca temporal.Última modificación de la ejecución de este trabajo.
-
CompletedOn
: marca temporal.La fecha y la hora en que se completó la ejecución de este trabajo.
-
JobRunState
: Cadena UTF-8 (valores válidos:STARTING
|RUNNING
|STOPPING
|STOPPED
|SUCCEEDED
|FAILED
|TIMEOUT
|ERROR
|WAITING
|EXPIRED
).El estado actual de la ejecución de flujo de trabajo. Para obtener más información sobre los estados de los trabajos que han terminado de forma anormal, consulte Estados de ejecución de trabajos de AWS Glue.
-
Arguments
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8.
Cada valor es una cadena UTF-8.
Los argumentos de flujo de trabajo asociados a esta ejecución. En esta ejecución del trabajo, sustituyen a los argumentos predeterminados definidos en la propia definición del trabajo.
Aquí puede especificar argumentos que su propio script de ejecución de tareas consume, así como argumentos que AWS Glue consume.
Es posible que se registren los argumentos del trabajo. No utilice secretos con formato de texto no cifrado como argumentos. Recupere los secretos desde una conexión de AWS Glue, AWS Secrets Manager u otro mecanismo de administración de secretos si tiene la intención de conservarlos dentro del trabajo.
Para obtener información acerca de cómo especificar y utilizar sus propios argumentos de trabajo, consulte Llamadas a las API de AWS Glue en Python en la guía para desarrolladores.
Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Spark, consulte el tema Parámetros especiales utilizados por AWS Glue en la guía para desarrolladores.
Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Ray, consulte Utilizar parámetros de trabajo utilizados en trabajos de Ray en la guía para desarrolladores.
-
ErrorMessage
: cadena UTF-8.Un mensaje de error asociado a la ejecución de este flujo de trabajo.
-
PredecessorRuns
: matriz de objetos Predecessor.Una lista de predecesores a la ejecución de este flujo de trabajo.
-
AllocatedCapacity
: número (entero).Este campo está obsoleto. En su lugar, usa
MaxCapacity
.El número de unidades de procesamiento de datos (DPU) de AWS Glue asignadas a este JobRun. Se pueden asignar entre 2 y 100 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue
. -
ExecutionTime
: número (entero).El periodo de tiempo (en segundos) que la ejecución de flujo de trabajo consumió recursos.
-
Timeout
: número (entero), como mínimo 1.Tiempo de espera de
JobRun
en minutos. Es el tiempo máximo que una ejecución de trabajo puede consumir recursos antes de que se termine y cambie al estadoTIMEOUT
. Este valor sustituye el valor de tiempo de espera establecido en el flujo de trabajo principal.Los trabajos de streaming deben tener valores de tiempo de espera inferiores a 7 días o 10 080 minutos. Si el valor se deja en blanco, el trabajo se reiniciará al cabo de 7 días si no se ha configurado un período de mantenimiento. Si ha configurado un período de mantenimiento, se reiniciará durante el período de mantenimiento a los 7 días.
-
MaxCapacity
: número (doble).Para trabajos de la versión 1.0 de Glue o anteriores, con el tipo de empleado estándar, debe especificar el número de unidades de procesamiento de datos (DPU) de AWS Glue que se pueden asignar cuando se ejecute este trabajo. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue
. En los trabajos de Glue versión 2.0+, no puede especificar un
Maximum capacity
. En su lugar, debe especificar unWorker type
y elNumber of workers
.No establezca
MaxCapacity
si utilizaWorkerType
yNumberOfWorkers
.El valor que se puede asignar a
MaxCapacity
depende de si se está ejecutando un trabajo de shell de Python, un trabajo de ETL de Apache Spark o un trabajo de ETL de streaming de Apache Spark:-
Cuando especifica un trabajo de shell de Python (
JobCommand.Name
=“pythonshell”), puede asignar 0,0625 o 1 DPU. El valor predeterminado es 0,0625 DPU. -
Cuando especifica un trabajo ETL de Apache Spark (
JobCommand.Name
=”glueetl”) o un trabajo de ETL de streaming de Apache Spark (JobCommand.Name
=”gluestreaming”), puede asignar de 2 a 100 DPU. El valor predeterminado es 10 DPU. Este tipo de trabajo no puede tener una asignación de DPU fraccionaria.
-
-
WorkerType
: cadena UTF-8 (valores válidos:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta un trabajo. Acepta un valor de G.1X, G.2X, G.4X, G.8X o G.025X para los trabajos de Spark. Acepta el valor Z.2X para los trabajos Ray.
-
Para el tipo de proceso de trabajo
G.1X
, cada proceso de trabajo se asocia a 1 DPU (4 vCPU, 16 GB de memoria) con un disco de 94 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos. -
Para el tipo de proceso de trabajo
G.2X
, cada proceso de trabajo se asocia a 2 DPU (8 vCPU, 32 GB de memoria) con un disco de 138 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos. -
Para el tipo de proceso de trabajo
G.4X
, cada proceso de trabajo se asocia a 4 DPU (16 vCPU, 64 GB de memoria) con un disco de 256 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos de Spark ETL de la versión 3.0 de AWS Glue o posteriores en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo). -
Para el tipo de proceso de trabajo
G.8X
, cada proceso de trabajo se asocia a 8 DPU (32 vCPU, 128 GB de memoria) con un disco de 512 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos ETL de Spark de la versión 3.0 de AWS Glue o posteriores, en las mismas regiones de AWS compatibles con el tipo de trabajadorG.4X
. -
Para el tipo de proceso de trabajo
G.025X
, cada proceso de trabajo se asocia a 0,25 DPU (2 vCPU, 4 GB de memoria) con un disco de 84 GB y proporciona 1 ejecutor por proceso de trabajo. Le recomendamos este tipo de proceso de trabajo para trabajos de streaming de bajo volumen. Este tipo de proceso de trabajo solo está disponible para trabajos de transmisión con la versión 3.0 (o posterior) de AWS Glue. -
Para el tipo de proceso de trabajo
Z.2X
, cada proceso de trabajo se asocia a 2 M-DPU (8 vCPU, 64 GB de memoria) con un disco de 128 GB y proporciona hasta 8 procesos de trabajo de Ray en función del escalador automático.
-
-
NumberOfWorkers
: número (entero).El número de procesos de trabajo de
workerType
definido que se asignan cuando se ejecuta un trabajo. -
SecurityConfiguration
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la estructura
SecurityConfiguration
que se va a utilizar con este trabajo. -
LogGroupName
: cadena UTF-8.El nombre del grupo de registros para proteger el registro, que se puede cifrar en el lado del servidor en Amazon CloudWatch con AWS KMS. Este nombre puede ser
/aws-glue/jobs/
, en cuyo caso el cifrado predeterminado esNONE
. Si añade un nombre de rol y el nombreSecurityConfiguration
(en otras palabras,/aws-glue/jobs-yourRoleName-yourSecurityConfigurationName/
), entonces dicha configuración de seguridad se utiliza para cifrar el grupo de registros. -
NotificationProperty
: un objeto NotificationProperty.Especifica las propiedades de configuración de una notificación de ejecución de trabajo.
-
GlueVersion
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Custom string pattern #47.En los trabajos de Spark,
GlueVersion
determina las versiones de Apache Spark y Python que AWS Glue están disponibles en un trabajo. La versión de Python indica la versión admitida para trabajos de tipo Spark.Los trabajos de Ray se deben configurar
GlueVersion
en4.0
o superior. Sin embargo, las versiones de Ray, Python y bibliotecas adicionales que están disponibles en el trabajo de Ray están determinadas por el parámetroRuntime
del comando del trabajo.Para obtener más información acerca de las versiones de AWS Glue disponibles y las versiones de Spark y Python correspondientes, consulte Versión de Glue en la guía para desarrolladores.
Los trabajos que se crean sin especificar una versión de Glue se establecen de forma predeterminada en Glue 0.9.
-
DPUSeconds
: número (doble).Este campo puede configurarse para ejecuciones de trabajos con clase de ejecución
FLEX
o cuando el escalado automático está activado, y representa el tiempo total que estuvo activo cada ejecutor durante el ciclo de vida de una ejecución de trabajo en segundos, multiplicado por un factor de DPU (1 para trabajadoresG.1X
, 2 paraG.2X
, o 0,25 paraG.025X
). Este valor puede ser diferente del deexecutionEngineRuntime
*MaxCapacity
, como en el caso de los trabajos de Auto Scaling, ya que el número de ejecutores que están activos en un momento determinado puede ser inferior aMaxCapacity
. Por lo tanto, es posible que el valor deDPUSeconds
sea menor queexecutionEngineRuntime
*MaxCapacity
. -
ExecutionClass
: cadena UTF-8 de 16 bytes de largo como máximo (valores válidos:FLEX=""
|STANDARD=""
).Indica si el trabajo se ejecuta con una clase de ejecución estándar o flexible. La clase de ejecución estándar es ideal para cargas de trabajo urgentes que requieren un inicio rápido de los trabajos y recursos dedicados.
La clase de ejecución flexible es adecuada para trabajos no urgentes cuyos momentos de inicio y finalización pueden variar.
Solo trabajos con AWS Glue versión 3.0 y posterior y tipo de comando
glueetl
podrán configurarExecutionClass
enFLEX
. La clase de ejecución flexible está disponible para los trabajos de Spark. -
MaintenanceWindow
: cadena UTF-8 que coincide con el Custom string pattern #34.Este campo especifica un día de la semana y una hora para el período de mantenimiento de los trabajos de streaming. AWS Glue lleva a cabo actividades de mantenimiento de forma periódica. Durante estos períodos de mantenimiento, AWS Glue tendrá que reiniciar sus trabajos de streaming.
AWS Glue reiniciará el trabajo en un plazo de 3 horas a partir del inicio del período de mantenimiento especificado. Por ejemplo, si configura el período de mantenimiento para el lunes a las 10:00 h GMT, sus trabajos se reiniciarán entre las 10:00 h GMT y las 13:00 h GMT.
-
ProfileName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de un perfil de utilización de AWS Glue asociado a la ejecución del trabajo.
-
StateDetail
: cadena UTF-8 de 400 000 bytes de largo como máximo.Este campo contiene detalles relacionados con el estado de la ejecución de un trabajo. El campo admite valores nulos.
Por ejemplo, cuando la ejecución de un trabajo se encuentra en estado DE ESPERA debido a que la ejecución de un trabajo está en fila, el campo indica el motivo por el que la ejecución del trabajo se encuentra en ese estado.
Estructura Predecessor
Una ejecución de flujo de trabajo que se usó en el predicado de un disparador condicional que activó la ejecución de este flujo de trabajo.
Campos
-
JobName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo que usa la ejecución de flujo de trabajo del predecesor.
-
RunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID de ejecución del flujo de trabajo de la ejecución de flujo de trabajo del predecesor.
Estructura JobBookmarkEntry
Define un momento en el que un trabajo puede reanudar el procesamiento.
Campos
-
JobName
: cadena UTF-8.Nombre del trabajo en cuestión.
-
Version
: número (entero).La versión del trabajo.
-
Run
: número (entero).El número de ID de ejecución.
-
Attempt
: número (entero).El número de ID de intento.
-
PreviousRunId
: cadena UTF-8.El identificador de ejecución único asociado a esta ejecución.
-
RunId
: cadena UTF-8.El número de ID de ejecución.
-
JobBookmark
: cadena UTF-8.El propio marcador.
Estructura BatchStopJobRunSuccessfulSubmission
Registra una solicitud correcta para detener un objeto JobRun
especificado.
Campos
-
JobName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo usada en la ejecución de flujo de trabajo que se detuvo.
-
JobRunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El
JobRunId
de la ejecución de trabajo que se detuvo.
Estructura BatchStopJobRunError
Registra un error que se produjo al intentar detener una ejecución de flujo de trabajo especificada.
Campos
-
JobName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de trabajo usada en la ejecución de trabajo en cuestión.
-
JobRunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El
JobRunId
de la ejecución de trabajo en cuestión. -
ErrorDetail
: un objeto ErrorDetail.Especifica los detalles acerca del error que se encontró.
Estructura NotificationProperty
Especifica las propiedades de configuración de una notificación.
Campos
-
NotifyDelayAfter
: número (entero), como mínimo 1.Después de que comience una ejecución de flujo de trabajo, el número de minutos que se debe esperar antes de enviar una notificación de retraso de ejecución de un flujo de trabajo.
Operaciones
Acción StartJobRun (Python: start_job_run)
Inicia una ejecución de flujo de trabajo con una definición de flujo de trabajo.
Solicitud
-
JobName
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo que se va a usar.
-
JobRunQueuingEnabled
: booleano.Especifica si la fila de ejecución de trabajos está habilitada para la ejecución del trabajo.
Un valor verdadero significa que la fila de ejecución de trabajos está habilitada para las ejecuciones. Si es falso o no está completo, los trabajos ejecutados no se considerarán para ingresar en la fila.
-
JobRunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID de una
JobRun
anterior para volver a intentarlo. -
Arguments
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8.
Cada valor es una cadena UTF-8.
Los argumentos de flujo de trabajo asociados a esta ejecución. En esta ejecución del trabajo, sustituyen a los argumentos predeterminados definidos en la propia definición del trabajo.
Aquí puede especificar argumentos que su propio script de ejecución de tareas consume, así como argumentos que AWS Glue consume.
Es posible que se registren los argumentos del trabajo. No utilice secretos con formato de texto no cifrado como argumentos. Recupere los secretos desde una conexión de AWS Glue, AWS Secrets Manager u otro mecanismo de administración de secretos si tiene la intención de conservarlos dentro del trabajo.
Para obtener información acerca de cómo especificar y utilizar sus propios argumentos de trabajo, consulte Llamadas a las API de AWS Glue en Python en la guía para desarrolladores.
Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Spark, consulte el tema Parámetros especiales utilizados por AWS Glue en la guía para desarrolladores.
Para obtener información sobre los argumentos que puede proporcionar a este campo al configurar los trabajos de Ray, consulte Utilizar parámetros de trabajo utilizados en trabajos de Ray en la guía para desarrolladores.
-
AllocatedCapacity
: número (entero).Este campo está obsoleto. En su lugar, usa
MaxCapacity
.El número de unidades de procesamiento de datos (DPU) de AWS Glue que se van a asignar a este JobRun. Puede asignar un mínimo de 2 DPU; el valor predeterminado es 10. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue
. -
Timeout
: número (entero), como mínimo 1.Tiempo de espera de
JobRun
en minutos. Es el tiempo máximo que una ejecución de trabajo puede consumir recursos antes de que se termine y cambie al estadoTIMEOUT
. Este valor sustituye el valor de tiempo de espera establecido en el flujo de trabajo principal.Los trabajos de streaming deben tener valores de tiempo de espera inferiores a 7 días o 10 080 minutos. Si el valor se deja en blanco, el trabajo se reiniciará al cabo de 7 días si no se ha configurado un período de mantenimiento. Si ha configurado un período de mantenimiento, se reiniciará durante el período de mantenimiento a los 7 días.
-
MaxCapacity
: número (doble).Para trabajos de la versión 1.0 de Glue o anteriores, con el tipo de empleado estándar, debe especificar el número de unidades de procesamiento de datos (DPU) de AWS Glue que se pueden asignar cuando se ejecute este trabajo. Una DPU es una medida relativa de la potencia de procesamiento que consta de 4 vCPU de capacidad de cómputo y 16 GB de memoria. Para obtener más información, consulte la página de precios de AWS Glue
. En los trabajos de Glue versión 2.0+, no puede especificar un
Maximum capacity
. En su lugar, debe especificar unWorker type
y elNumber of workers
.No establezca
MaxCapacity
si utilizaWorkerType
yNumberOfWorkers
.El valor que se puede asignar a
MaxCapacity
depende de si se está ejecutando un trabajo de shell de Python, un trabajo de ETL de Apache Spark o un trabajo de ETL de streaming de Apache Spark:-
Cuando especifica un trabajo de shell de Python (
JobCommand.Name
=“pythonshell”), puede asignar 0,0625 o 1 DPU. El valor predeterminado es 0,0625 DPU. -
Cuando especifica un trabajo ETL de Apache Spark (
JobCommand.Name
=”glueetl”) o un trabajo de ETL de streaming de Apache Spark (JobCommand.Name
=”gluestreaming”), puede asignar de 2 a 100 DPU. El valor predeterminado es 10 DPU. Este tipo de trabajo no puede tener una asignación de DPU fraccionaria.
-
-
SecurityConfiguration
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la estructura
SecurityConfiguration
que se va a utilizar con este trabajo. -
NotificationProperty
: un objeto NotificationProperty.Especifica las propiedades de configuración de una notificación de ejecución de trabajo.
-
WorkerType
: cadena UTF-8 (valores válidos:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).El tipo de proceso de trabajo predefinido que se asigna cuando se ejecuta un trabajo. Acepta un valor de G.1X, G.2X, G.4X, G.8X o G.025X para los trabajos de Spark. Acepta el valor Z.2X para los trabajos Ray.
-
Para el tipo de proceso de trabajo
G.1X
, cada proceso de trabajo se asocia a 1 DPU (4 vCPU, 16 GB de memoria) con un disco de 94 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos. -
Para el tipo de proceso de trabajo
G.2X
, cada proceso de trabajo se asocia a 2 DPU (8 vCPU, 32 GB de memoria) con un disco de 138 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para cargas de trabajo como transformaciones de datos, uniones y consultas, ya que ofrece una forma escalable y rentable de ejecutar la mayoría de los trabajos. -
Para el tipo de proceso de trabajo
G.4X
, cada proceso de trabajo se asocia a 4 DPU (16 vCPU, 64 GB de memoria) con un disco de 256 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos de Spark ETL de la versión 3.0 de AWS Glue o posteriores en las siguientes regiones de AWS: Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Asia Pacífico (Singapur), Asia Pacífico (Sídney), Asia Pacífico (Tokio), Canadá (centro), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo). -
Para el tipo de proceso de trabajo
G.8X
, cada proceso de trabajo se asocia a 8 DPU (32 vCPU, 128 GB de memoria) con un disco de 512 GB y proporciona 1 ejecutor por proceso de trabajo. Recomendamos este tipo de trabajador para los trabajos cuyas cargas de trabajo contengan las transformaciones, agregaciones, uniones y consultas más exigentes. Este tipo de trabajador solo está disponible para los trabajos ETL de Spark de la versión 3.0 de AWS Glue o posteriores, en las mismas regiones de AWS compatibles con el tipo de trabajadorG.4X
. -
Para el tipo de proceso de trabajo
G.025X
, cada proceso de trabajo se asocia a 0,25 DPU (2 vCPU, 4 GB de memoria) con un disco de 84 GB y proporciona 1 ejecutor por proceso de trabajo. Le recomendamos este tipo de proceso de trabajo para trabajos de streaming de bajo volumen. Este tipo de proceso de trabajo solo está disponible para trabajos de transmisión con la versión 3.0 (o posterior) de AWS Glue. -
Para el tipo de proceso de trabajo
Z.2X
, cada proceso de trabajo se asocia a 2 M-DPU (8 vCPU, 64 GB de memoria) con un disco de 128 GB y proporciona hasta 8 procesos de trabajo de Ray en función del escalador automático.
-
-
NumberOfWorkers
: número (entero).El número de procesos de trabajo de
workerType
definido que se asignan cuando se ejecuta un trabajo. -
ExecutionClass
: cadena UTF-8 de 16 bytes de largo como máximo (valores válidos:FLEX=""
|STANDARD=""
).Indica si el trabajo se ejecuta con una clase de ejecución estándar o flexible. La clase de ejecución estándar es ideal para cargas de trabajo urgentes que requieren un inicio rápido de los trabajos y recursos dedicados.
La clase de ejecución flexible es adecuada para trabajos no urgentes cuyos momentos de inicio y finalización pueden variar.
Solo trabajos con AWS Glue versión 3.0 y posterior y tipo de comando
glueetl
podrán configurarExecutionClass
enFLEX
. La clase de ejecución flexible está disponible para los trabajos de Spark. -
ProfileName
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de un perfil de utilización de AWS Glue asociado a la ejecución del trabajo.
Respuesta
-
JobRunId
: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID asignado a la ejecución de este flujo de trabajo.
Errores
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
ResourceNumberLimitExceededException
ConcurrentRunsExceededException
Acción BatchStopJobRun (Python: batch_stop_job_run)
Detiene una o varias ejecuciones de flujo de trabajo para una definición flujo de trabajo especificada.
Solicitud
-
JobName
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo para la que se detienen las ejecuciones de flujo de trabajo.
-
JobRunIds
– Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y 25 cadenas como máximo.Una lista de los
JobRunIds
que se deben detener para esa definición de trabajo.
Respuesta
-
SuccessfulSubmissions
: matriz de objetos BatchStopJobRunSuccessfulSubmission.Una lista de los objetos JobRun que se enviaron correctamente para su detención.
-
Errors
: matriz de objetos BatchStopJobRunError.Una lista de los errores que se encontraron al intentar detener objetos
JobRuns
, incluidos elJobRunId
para el que se encontró cada error y los detalles acerca del error.
Errores
InvalidInputException
InternalServiceException
OperationTimeoutException
Acción GetJobRun (Python: get_job_run)
Recupera los metadatos para una ejecución de flujo de trabajo especificada. El historial de ejecución de trabajos está disponible durante 90 días para su flujo de trabajo y ejecución de trabajos.
Solicitud
-
JobName
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre de la definición de flujo de trabajo que se ejecuta.
-
RunId
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El ID de la ejecución de flujo de trabajo.
-
PredecessorsIncluded
: booleano.True si una lista de ejecuciones del predecesor debe devolverse.
Respuesta
-
JobRun
: un objeto JobRun.Los metadatos de ejecución de flujo de trabajo solicitados.
Errores
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Acción GetJobRuns (Python: get_job_runs)
Recupera los metadatos para todas las ejecuciones de una definición de flujo de trabajo especificada.
GetJobRuns
devuelve las ejecuciones del trabajo en orden cronológico, con las tareas más recientes devueltas primero.
Solicitud
-
JobName
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre de la definición de flujo de trabajo para la que se recuperarán todas las ejecuciones de flujo de trabajo.
-
NextToken
: cadena UTF-8.Token de continuación si se trata de una llamada de continuidad.
-
MaxResults
: número (entero), mayor que 1 y menor que 200.Tamaño máximo de la respuesta.
Respuesta
-
JobRuns
: matriz de objetos JobRun.Una lista de objetos de metadatos de ejecución de trabajo
-
NextToken
: cadena UTF-8.Token de continuación, si no se han devuelto todas las ejecuciones de trabajos solicitadas.
Errores
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Acción GetJobBookmark (Python: get_job_bookmark)
Devuelve información sobre una entrada de marcador de trabajo.
Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:
Solicitud
-
JobName
– Obligatorio: cadena UTF-8.Nombre del trabajo en cuestión.
-
Version
: número (entero).La versión del trabajo.
-
RunId
: cadena UTF-8.El identificador de ejecución único asociado a esta ejecución.
Respuesta
-
JobBookmarkEntry
: un objeto JobBookmarkEntry.Estructura que define un punto en el que un trabajo puede reanudar el procesamiento.
Errores
EntityNotFoundException
InvalidInputException
InternalServiceException
OperationTimeoutException
ValidationException
Acción GetJobBookmarks (Python: get_job_bookmarks)
Devuelve información sobre las entradas de marcador de trabajo. La lista se ordena en números de versión decrecientes.
Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:
Solicitud
-
JobName
– Obligatorio: cadena UTF-8.Nombre del trabajo en cuestión.
-
MaxResults
: número (entero).Tamaño máximo de la respuesta.
-
NextToken
: número (entero).Token de continuación si se trata de una llamada de continuidad.
Respuesta
-
JobBookmarkEntries
: matriz de objetos JobBookmarkEntry.Una lista de entradas de marcador de trabajo que define un punto en el que un trabajo puede reanudar su procesamiento.
-
NextToken
: número (entero).Un token de continuación, que tiene un valor de 1 si se devuelven todas las entradas, o mayor que 1 si no se han devuelto todas las ejecuciones de trabajo solicitadas.
Errores
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Acción ResetJobBookmark (Python: reset_job_bookmark)
Restablece una entrada de marcador.
Para más información acerca de la habilitación y el uso de marcadores de trabajo, consulte:
Solicitud
-
JobName
– Obligatorio: cadena UTF-8.Nombre del trabajo en cuestión.
-
RunId
: cadena UTF-8.El identificador de ejecución único asociado a esta ejecución.
Respuesta
-
JobBookmarkEntry
: un objeto JobBookmarkEntry.La entrada de marcador de restablecimiento.
Errores
EntityNotFoundException
InvalidInputException
InternalServiceException
OperationTimeoutException