Referencia de clases de esquemas de AWS Glue
Las bibliotecas para los esquemas de AWS Glue definen tres clases que se utilizan en el script de diseño del flujo de trabajo: Job
, Crawler
y Workflow
.
Clase de trabajo
La clase de Job
representa un trabajo de ETL de AWS Glue.
Argumentos obligatorios del constructor
A continuación, se indican los argumentos obligatorios del constructor para la clase de Job
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
Name |
str |
Nombre a asignar al trabajo. AWS Glue agrega un sufijo generado en forma aleatoria al nombre para distinguir el trabajo de los creados por otras ejecuciones del esquema. |
Role |
str |
El nombre de recurso de Amazon (ARN) del rol que el trabajo debe asumir mientras se ejecuta. |
Command |
dict |
Comando de trabajo, tal como se especifica en Estructura JobCommand en la documentación de la API. |
Argumentos opcionales del constructor
A continuación, se indican los argumentos opcionales del constructor para la clase de Job
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
DependsOn |
dict |
Lista de entidades de flujo de trabajo de las que depende el trabajo. Para obtener más información, consulte Uso del argumento DependsOn (Depende de). |
WaitForDependencies |
str |
Indica si el trabajo debe esperar hasta que todas las entidades de las que depende se completen antes de ejecutarse o hasta que alguna se complete. Para obtener más información, consulte Uso del argumento WaitForDependencies (Esperar a las dependencias). Omitir si el trabajo depende de una sola entidad. |
(Propiedades del trabajo) | - | Cualquiera de las propiedades del trabajo enumeradas en Estructura de trabajo en la documentación de la API de AWS Glue (excepto CreatedOn y LastModifiedOn ). |
Clase de rastreador
La clase de Crawler
representa un rastreador de AWS Glue.
Argumentos obligatorios del constructor
A continuación, se indican los argumentos obligatorios del constructor para la clase de Crawler
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
Name |
str |
Nombre a asignar al rastreador. AWS Glue agrega un sufijo generado en forma aleatoria al nombre para distinguir el rastreador de los creados por otras ejecuciones del esquema. |
Role |
str |
ARN del rol que el rastreador debe asumir durante la ejecución. |
Targets |
dict |
Recopilación de destinos que se rastrearán. Los argumentos del constructor de clase de Targets se definen en Estructura CrawlerTargets en la documentación de la API. Todos los argumentos del constructor de Targets son opcionales, pero debe transferir al menos uno. |
Argumentos opcionales del constructor
A continuación, se indican los argumentos opcionales del constructor para la clase de Crawler
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
DependsOn |
dict |
Lista de entidades del flujo de trabajo de las que depende el rastreador. Para obtener más información, consulte Uso del argumento DependsOn (Depende de). |
WaitForDependencies |
str |
Indica si el rastreador debe esperar hasta que todas las entidades de las que depende se completen antes de ejecutarse o hasta que alguna se complete. Para obtener más información, consulte Uso del argumento WaitForDependencies (Esperar a las dependencias). Omitir si el rastreador depende de una sola entidad. |
(Propiedades del rastreador) | - | Cualquiera de las propiedades del rastreador enumeradas en Estructura de rastreador en la documentación de la API de AWS Glue, con las siguientes excepciones:
|
Clase de flujo de trabajo
La clase de Workflow
representa un flujo de trabajo de AWS Glue. El script de diseño del flujo de trabajo devuelve un objeto Workflow
. AWS Gluecrea un flujo de trabajo basado en este objeto.
Argumentos obligatorios del constructor
A continuación, se indican los argumentos obligatorios del constructor para la clase de Workflow
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
Name |
str |
El nombre que se asignará al flujo de trabajo. |
Entities |
Entities |
Conjunto de entidades (trabajos y rastreadores) que se incluirán en el flujo de trabajo. El constructor de clase de Entities acepta un argumento de Jobs , que es una lista de objetos de Job , y un argumento de Crawlers , que es una lista de objetos de Crawler . |
Argumentos opcionales del constructor
A continuación, se indican los argumentos opcionales del constructor para la clase de Workflow
.
Nombre del argumento | Tipo | Descripción |
---|---|---|
Description |
str |
Consulte Estructura de flujo de trabajo. |
DefaultRunProperties |
dict |
Consulte Estructura de flujo de trabajo. |
OnSchedule |
str |
Una expresión cron . |
Métodos de clase
Las tres clases incluyen los métodos siguientes.
- validate() [validar()]
-
Valida las propiedades del objeto y, si se encuentran errores, genera un mensaje y sale. No genera resultados si no hay errores. Para la clase de
Workflow
, se llama a sí mismo en cada entidad en el flujo de trabajo. - to_json() [a_json()]
-
Serializa el objeto a JSON. También llama a
validate()
. Para la clase deWorkflow
, el objeto JSON incluye listas de trabajos y rastreadores, y una lista de desencadenadores generados por las especificaciones de dependencia del trabajo y del rastreador.