Tarefas
A API de trabalhos descreve os tipos de dados e a API relacionada à criação, atualização, exclusão ou previsualização de trabalhos no AWS Glue.
Tipos de dados
Estrutura Job
Especifica uma definição de trabalho.
Campos
-
Name
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome que você atribui a esta definição de trabalho.
-
JobMode
– String UTF-8 (valores válidos:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Um modo que descreve como um trabalho foi criado. Os valores válidos são:
-
SCRIPT
: o trabalho foi criado usando o editor de scripts do AWS Glue Studio. -
VISUAL
: o trabalho foi criado usando o editor visual do AWS Glue Studio. -
NOTEBOOK
: o trabalho foi criado usando um caderno de sessões interativas.
Quando o campo
JobMode
está ausente ou é nulo,SCRIPT
é atribuído como o valor padrão. -
-
JobRunQueuingEnabled
– Booleano.Especifica se o enfileiramento da execução de trabalhos está habilitado para as execuções desse trabalho.
Um valor "verdadeiro" significa que o enfileiramento da execução de trabalhos está habilitado para a execução do trabalho. Se o valor for "falso" ou não estiver preenchido, as execuções do trabalho não serão consideradas para enfileiramento.
Se esse campo não corresponder ao valor definido na execução do trabalho, o valor do campo de execução do trabalho será usado.
-
Description
– String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.Uma descrição do trabalho.
-
LogUri
– String UTF-8.Este campo está reservado para uso futuro.
-
Role
– String UTF-8.O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esta trabalho.
-
CreatedOn
– Timestamp.A hora e a data em que esta definição de trabalho foi criada.
-
LastModifiedOn
– Timestamp.O último momento em que esta definição de trabalho foi modificada.
-
ExecutionProperty
– Um objeto ExecutionProperty.Um
ExecutionProperty
que especifica o número máximo de execuções simultâneas permitidas para o trabalho. -
Command
– Um objeto JobCommand.O
JobCommand
que executa esse trabalho. -
DefaultArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.
Aqui, você pode especificar os argumentos que seu próprio script de execução de trabalho consome, além dos argumentos que o AWS Glue consome.
Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere os segredos de uma conexão do AWS Glue, AWS Secrets Manager ou outro mecanismo de gerenciamento de segredo se pretender mantê-los dentro do trabalho.
Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.
-
NonOverridableArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.
-
Connections
– Um objeto ConnectionsList.As conexões usadas no trabalho.
-
MaxRetries
– Número (íntegro).O número máximo de novas tentativas desse trabalho após a falha de um JobRun.
-
AllocatedCapacity
– Número (íntegro).Este campo está obsoleto. Use
MaxCapacity
em vez disso.O número de unidades de processamento de dados (DPUs) do AWS Glue alocadas em execuções desse trabalho. É possível alocar um mínimo de 2 DPUs; o padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. -
Timeout
– Número (inteiro), pelo menos 1.O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT
. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.
-
MaxCapacity
– Número (duplo).Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de operador padrão, é o número de unidades de processamento de dados (DPUs) do AWS Glue que poderão ser alocadas quando esse trabalho for executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. Para trabalhos do Glue versão 2.0 ou posterior, você não pode um
Maximum capacity
. Em vez disso, você deve especificar umWorker type
e oNumber of workers
.Não defina
MaxCapacity
se estiver usandoWorkerType
eNumberOfWorkers
.O valor que pode ser alocado para
MaxCapacity
depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:-
Ao especificar um trabalho de shell do Python (
JobCommand.Name
="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU. -
Ao especificar um trabalho de ETL do Apache Spark (
JobCommand.Name
="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name
="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.
-
-
WorkerType
– String UTF-8 (valores válidos:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.
-
Para o tipo de operador
G.1X
, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.2X
, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.4X
, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo). -
Para o tipo de operador
G.8X
, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior, nas mesmas regiões da AWS compatíveis com o tipo de operadorG.4X
. -
Para o tipo de operador
G.025X
, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de operador só está disponível para trabalhos de streaming AWS Glue versão 3.0. -
Para o tipo de operador
Z.2X
, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.
-
-
NumberOfWorkers
– Número (íntegro).O número de operadores de determinado
workerType
que são alocados quando um trabalho é executado. -
SecurityConfiguration
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da estrutura de
SecurityConfiguration
a ser usada com esse trabalho. -
NotificationProperty
– Um objeto NotificationProperty.Especifica propriedades de configuração de uma notificação de trabalho.
-
Running
– Booleano.Este campo está reservado para uso futuro.
-
GlueVersion
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.Nas tarefas do Spark,
GlueVersion
determina as versões do Apache Spark e do Python que o AWS Glue disponibiliza em um trabalho. A versão do Python indica a versão compatível com trabalhos do tipo Spark.Os trabalhos de Ray devem definir
GlueVersion
como4.0
ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetroRuntime
do comando Job.Para obter mais informações sobre as versões disponíveis do AWS Glue e as versões correspondentes do Spark e do Python, consulte Versão do Glue no guia do desenvolvedor.
Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.
-
CodeGenConfigurationNodes
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #42.
Cada valor é um objeto CodeGenConfigurationNode A.
A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.
-
ExecutionClass
: string UTF-8, inferior a 16 bytes de comprimento (valores válidos:FLEX=""
|STANDARD=""
).Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.
A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.
Somente trabalhos com o AWS Glue versão 3.0 e posterior e o tipo de comando
glueetl
terão permissão para definirExecutionClass
comoFLEX
. A classe de execução flexível está disponível para trabalhos do Spark. -
SourceControlDetails
– Um objeto SourceControlDetails.Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.
-
MaintenanceWindow
– String UTF-8 correspondente a Custom string pattern #30.Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. O AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, o AWS Glue precisará reiniciar seus trabalhos de streaming.
O AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).
-
ProfileName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome de um perfil de uso do AWS Glue associado ao trabalho.
Estrutura ExecutionProperty
Uma propriedade de execução de um trabalho.
Campos
-
MaxConcurrentRuns
– Número (íntegro).O número máximo de execuções simultâneas permitidas para o trabalho. O padrão é um. Um erro será retornado quando este limite for atingido. O valor máximo que você pode especificar é controlado por um limite de serviço.
Estrutura NotificationProperty
Especifica propriedades de configuração de uma notificação.
Campos
-
NotifyDelayAfter
– Número (inteiro), pelo menos 1.Depois que a execução de um trabalho for iniciada, o número de minutos a esperar antes de enviar uma notificação de atraso de execução de trabalho.
Estrutura JobCommand
Especifica o código executado quando um trabalho é executado.
Campos
-
Name
– String UTF-8.O nome do comando de trabalho. Para um trabalho de ETL do Apache Spark, ele deve ser
glueetl
. Para um trabalho de shell do Python, ele deve serpythonshell
. Para um trabalho de ETL de streaming do Apache Spark, ele deve sergluestreaming
. Para um trabalho do Ray, isso deve serglueray
. -
ScriptLocation
: string UTF-8, não superior a 400.000 bytes de comprimento.Especifica o caminho do Amazon Simple Storage Service (Amazon S3) para um script que executa um trabalho.
-
PythonVersion
– String UTF-8 correspondente a Custom string pattern #21.A versão de Python que está em uso para executar um trabalho de shell em Python. Os valores permitidos são 2 ou 3.
-
Runtime
: string UTF-8, com no máximo 64 bytes de comprimento, correspondendo a Custom string pattern #29.Em trabalhos do Ray, Runtime é usado para especificar as versões do Ray, do Python e das bibliotecas adicionais disponíveis no ambiente. Esse campo não é usado em outros tipos de trabalho. Para obter os valores do ambiente de runtime compatíveis, consulte Ambientes de runtime do Ray compatíveis no Guia do desenvolvedor do AWS Glue.
Estrutura ConnectionsList
Especifica as conexões usadas por um trabalho.
Campos
-
Connections
– Uma matriz de strings UTF-8.Uma lista das conexões usadas pelo trabalho.
Estrutura JobUpdate
Especifica as informações usadas para atualizar uma definição de trabalho existente. A definição de trabalho anterior é totalmente substituída por essa informação.
Campos
-
JobMode
– String UTF-8 (valores válidos:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Um modo que descreve como um trabalho foi criado. Os valores válidos são:
-
SCRIPT
: o trabalho foi criado usando o editor de scripts do AWS Glue Studio. -
VISUAL
: o trabalho foi criado usando o editor visual do AWS Glue Studio. -
NOTEBOOK
: o trabalho foi criado usando um caderno de sessões interativas.
Quando o campo
JobMode
está ausente ou é nulo,SCRIPT
é atribuído como o valor padrão. -
-
JobRunQueuingEnabled
– Booleano.Especifica se o enfileiramento da execução de trabalhos está habilitado para as execuções desse trabalho.
Um valor "verdadeiro" significa que o enfileiramento da execução de trabalhos está habilitado para a execução do trabalho. Se o valor for "falso" ou não estiver preenchido, as execuções do trabalho não serão consideradas para enfileiramento.
Se esse campo não corresponder ao valor definido na execução do trabalho, o valor do campo de execução do trabalho será usado.
-
Description
– String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.Descrição do trabalho que está sendo definido.
-
LogUri
– String UTF-8.Este campo está reservado para uso futuro.
-
Role
– String UTF-8.O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esse trabalho (obrigatório).
-
ExecutionProperty
– Um objeto ExecutionProperty.Um
ExecutionProperty
que especifica o número máximo de execuções simultâneas permitidas para o trabalho. -
Command
– Um objeto JobCommand.O
JobCommand
que executa esse trabalho (obrigatório). -
DefaultArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.
Aqui, você pode especificar os argumentos que seu próprio script de execução de trabalho consome, além dos argumentos que o AWS Glue consome.
Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere os segredos de uma conexão do AWS Glue, AWS Secrets Manager ou outro mecanismo de gerenciamento de segredo se pretender mantê-los dentro do trabalho.
Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.
-
NonOverridableArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.
-
Connections
– Um objeto ConnectionsList.As conexões usadas no trabalho.
-
MaxRetries
– Número (íntegro).O número máximo de novas tentativas desse trabalho em caso de falha.
-
AllocatedCapacity
– Número (íntegro).Este campo está obsoleto. Use
MaxCapacity
em vez disso.O número de unidades de processamento de dados (DPUs) do AWS Glue a serem alocadas para esse trabalho. É possível alocar um mínimo de 2 DPUs; o padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. -
Timeout
– Número (inteiro), pelo menos 1.O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT
. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.
-
MaxCapacity
– Número (duplo).Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de operador padrão, é o número de unidades de processamento de dados (DPUs) do AWS Glue que poderão ser alocadas quando esse trabalho for executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. Para trabalhos do Glue versão 2.0+, você não pode especificar uma
Maximum capacity
. Em vez disso, você deve especificar umWorker type
e oNumber of workers
.Não defina
MaxCapacity
se estiver usandoWorkerType
eNumberOfWorkers
.O valor que pode ser alocado para
MaxCapacity
depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:-
Ao especificar um trabalho de shell do Python (
JobCommand.Name
="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU. -
Ao especificar um trabalho de ETL do Apache Spark (
JobCommand.Name
="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name
="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.
-
-
WorkerType
– String UTF-8 (valores válidos:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.
-
Para o tipo de operador
G.1X
, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.2X
, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.4X
, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo). -
Para o tipo de operador
G.8X
, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior, nas mesmas regiões da AWS compatíveis com o tipo de operadorG.4X
. -
Para o tipo de operador
G.025X
, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de operador só está disponível para trabalhos de streaming AWS Glue versão 3.0. -
Para o tipo de operador
Z.2X
, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.
-
-
NumberOfWorkers
– Número (íntegro).O número de operadores de determinado
workerType
que são alocados quando um trabalho é executado. -
SecurityConfiguration
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da estrutura de
SecurityConfiguration
a ser usada com esse trabalho. -
NotificationProperty
– Um objeto NotificationProperty.Especifica as propriedades de configuração de uma notificação de trabalho.
-
GlueVersion
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.Nas tarefas do Spark,
GlueVersion
determina as versões do Apache Spark e do Python que o AWS Glue disponibiliza em um trabalho. A versão do Python indica a versão compatível com trabalhos do tipo Spark.Os trabalhos de Ray devem definir
GlueVersion
como4.0
ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetroRuntime
do comando Job.Para obter mais informações sobre as versões disponíveis do AWS Glue e as versões correspondentes do Spark e do Python, consulte Versão do Glue no guia do desenvolvedor.
Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.
-
CodeGenConfigurationNodes
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #42.
Cada valor é um objeto CodeGenConfigurationNode A.
A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.
-
ExecutionClass
: string UTF-8, inferior a 16 bytes de comprimento (valores válidos:FLEX=""
|STANDARD=""
).Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.
A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.
Somente trabalhos com o AWS Glue versão 3.0 e posterior e o tipo de comando
glueetl
terão permissão para definirExecutionClass
comoFLEX
. A classe de execução flexível está disponível para trabalhos do Spark. -
SourceControlDetails
– Um objeto SourceControlDetails.Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.
-
MaintenanceWindow
– String UTF-8 correspondente a Custom string pattern #30.Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. O AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, o AWS Glue precisará reiniciar seus trabalhos de streaming.
O AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).
-
ProfileName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome de um perfil de uso do AWS Glue associado ao trabalho.
Estrutura SourceControlDetails
Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.
Campos
-
Provider
– String UTF-8.O provedor do repositório remoto.
-
Repository
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.O nome do repositório remoto que contém os artefatos do trabalho.
-
Owner
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.O proprietário do repositório remoto que contém os artefatos do trabalho.
-
Branch
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.Uma ramificação opcional no repositório remoto.
-
Folder
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.Uma pasta opcional no repositório remoto.
-
LastCommitId
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.O último ID de confirmação no repositório remoto.
-
LastSyncTimestamp
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.A data e a hora em que a última sincronização de trabalho foi realizada.
-
AuthStrategy
– String UTF-8.O tipo de autenticação, que pode ser um token de autenticação armazenado no AWS Secrets Manager ou um token de acesso pessoal.
-
AuthToken
: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.O valor de um token de autorização.
Operações
Ação CreateJob (Python: create_job)
Cria uma nova definição de trabalho.
Solicitação
-
Name
– Obrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.O nome que você atribui a esta definição de trabalho. Ele deve ser exclusivo na sua conta da .
-
JobMode
– String UTF-8 (valores válidos:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Um modo que descreve como um trabalho foi criado. Os valores válidos são:
-
SCRIPT
: o trabalho foi criado usando o editor de scripts do AWS Glue Studio. -
VISUAL
: o trabalho foi criado usando o editor visual do AWS Glue Studio. -
NOTEBOOK
: o trabalho foi criado usando um caderno de sessões interativas.
Quando o campo
JobMode
está ausente ou é nulo,SCRIPT
é atribuído como o valor padrão. -
-
JobRunQueuingEnabled
– Booleano.Especifica se o enfileiramento da execução de trabalhos está habilitado para as execuções desse trabalho.
Um valor "verdadeiro" significa que o enfileiramento da execução de trabalhos está habilitado para a execução do trabalho. Se o valor for "falso" ou não estiver preenchido, as execuções do trabalho não serão consideradas para enfileiramento.
Se esse campo não corresponder ao valor definido na execução do trabalho, o valor do campo de execução do trabalho será usado.
-
Description
– String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.Descrição do trabalho que está sendo definido.
-
LogUri
– String UTF-8.Este campo está reservado para uso futuro.
-
Role
– Obrigatório: string UTF-8.O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esta trabalho.
-
ExecutionProperty
– Um objeto ExecutionProperty.Um
ExecutionProperty
que especifica o número máximo de execuções simultâneas permitidas para o trabalho. -
Command
– Obrigatório: um objeto JobCommand.O
JobCommand
que executa esse trabalho. -
DefaultArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.
Aqui, você pode especificar os argumentos que seu próprio script de execução de trabalho consome, além dos argumentos que o AWS Glue consome.
Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere os segredos de uma conexão do AWS Glue, AWS Secrets Manager ou outro mecanismo de gerenciamento de segredo se pretender mantê-los dentro do trabalho.
Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.
Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.
-
NonOverridableArguments
– Um array de mapa dos pares de valor-chave.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.
-
Connections
– Um objeto ConnectionsList.As conexões usadas no trabalho.
-
MaxRetries
– Número (íntegro).O número máximo de novas tentativas desse trabalho em caso de falha.
-
AllocatedCapacity
– Número (íntegro).Esse parâmetro está suspenso. Use
MaxCapacity
em vez disso.O número de unidades de processamento de dados (DPUs) do AWS Glue a serem alocadas para esse trabalho. É possível alocar um mínimo de 2 DPUs; o padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. -
Timeout
– Número (inteiro), pelo menos 1.O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status
TIMEOUT
. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.
-
MaxCapacity
– Número (duplo).Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de operador padrão, é o número de unidades de processamento de dados (DPUs) do AWS Glue que poderão ser alocadas quando esse trabalho for executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue
. Para trabalhos do Glue versão 2.0+, você não pode especificar uma
Maximum capacity
. Em vez disso, você deve especificar umWorker type
e oNumber of workers
.Não defina
MaxCapacity
se estiver usandoWorkerType
eNumberOfWorkers
.O valor que pode ser alocado para
MaxCapacity
depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:-
Ao especificar um trabalho de shell do Python (
JobCommand.Name
="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU. -
Ao especificar um trabalho de ETL do Apache Spark (
JobCommand.Name
="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name
="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.
-
-
SecurityConfiguration
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da estrutura de
SecurityConfiguration
a ser usada com esse trabalho. -
Tags
: uma matriz de mapa dos pares de chave-valor, não mais do que 50 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.
Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.
As tags a serem usadas com essa tarefa. Você pode usar tags para limitar o acesso à tarefa. Para obter mais informações sobre tags no AWS Glue, consulte Tags da AWS no AWS Glue no guia do desenvolvedor.
-
NotificationProperty
– Um objeto NotificationProperty.Especifica propriedades de configuração de uma notificação de trabalho.
-
GlueVersion
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.Nas tarefas do Spark,
GlueVersion
determina as versões do Apache Spark e do Python que o AWS Glue disponibiliza em um trabalho. A versão do Python indica a versão compatível com trabalhos do tipo Spark.Os trabalhos de Ray devem definir
GlueVersion
como4.0
ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetroRuntime
do comando Job.Para obter mais informações sobre as versões disponíveis do AWS Glue e as versões correspondentes do Spark e do Python, consulte Versão do Glue no guia do desenvolvedor.
Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.
-
NumberOfWorkers
– Número (íntegro).O número de operadores de determinado
workerType
que são alocados quando um trabalho é executado. -
WorkerType
– String UTF-8 (valores válidos:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.
-
Para o tipo de operador
G.1X
, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.2X
, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos. -
Para o tipo de operador
G.4X
, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo). -
Para o tipo de operador
G.8X
, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior, nas mesmas regiões da AWS compatíveis com o tipo de operadorG.4X
. -
Para o tipo de operador
G.025X
, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de operador só está disponível para trabalhos de streaming AWS Glue versão 3.0. -
Para o tipo de operador
Z.2X
, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.
-
-
CodeGenConfigurationNodes
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #42.
Cada valor é um objeto CodeGenConfigurationNode A.
A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.
-
ExecutionClass
: string UTF-8, inferior a 16 bytes de comprimento (valores válidos:FLEX=""
|STANDARD=""
).Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.
A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.
Somente trabalhos com o AWS Glue versão 3.0 e posterior e o tipo de comando
glueetl
terão permissão para definirExecutionClass
comoFLEX
. A classe de execução flexível está disponível para trabalhos do Spark. -
SourceControlDetails
– Um objeto SourceControlDetails.Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.
-
MaintenanceWindow
– String UTF-8 correspondente a Custom string pattern #30.Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. O AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, o AWS Glue precisará reiniciar seus trabalhos de streaming.
O AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).
-
ProfileName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome de um perfil de uso do AWS Glue associado ao trabalho.
Resposta
-
Name
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome exclusivo que foi fornecido para esta definição de trabalho.
Erros
InvalidInputException
IdempotentParameterMismatchException
AlreadyExistsException
InternalServiceException
OperationTimeoutException
ResourceNumberLimitExceededException
ConcurrentModificationException
Ação UpdateJob (Python: update_job)
Atualiza uma definição de trabalho existente. A definição de trabalho anterior é totalmente substituída por essa informação.
Solicitação
-
JobName
– Obrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.Nome da definição de trabalho a ser atualizada.
-
JobUpdate
– Obrigatório: um objeto JobUpdate.Especifica os valores com os quais a definição de trabalho será atualizada. A configuração não especificada é removida ou redefinida para os valores padrão.
-
ProfileName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome de um perfil de uso do AWS Glue associado ao trabalho.
Resposta
-
JobName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.Retorna o nome da definição de trabalho atualizada.
Erros
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
ConcurrentModificationException
Ação GetJob (Python: get_job)
Recupera uma definição de trabalho existente.
Solicitação
-
JobName
– Obrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da definição de trabalho a ser recuperada.
Resposta
-
Job
– Um objeto Trabalho.A definição de trabalho solicitada.
Erros
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Ação GetJobs (Python: get_jobs)
Recupera todas as definições de trabalho atuais.
Solicitação
-
NextToken
– String UTF-8.Um token de continuação, se esta for uma chamada de continuação.
-
MaxResults
– Número (inteiro), superior a 1 ou mais que 1000.O tamanho máximo da resposta.
Resposta
-
Jobs
– Uma matriz de objetos Trabalho.Uma lista de definições de trabalho.
-
NextToken
– String UTF-8.Um token de continuação, caso algumas definições de trabalho ainda não tenham sido retornadas.
Erros
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Ação DeleteJob (Python: delete_job)
Exclui uma definição de trabalho especificada. Se a definição de trabalho não for encontrada, nenhuma exceção será gerada.
Solicitação
-
JobName
– Obrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da definição de trabalho a ser excluída.
Resposta
-
JobName
– String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.O nome da definição de trabalho que foi excluída.
Erros
InvalidInputException
InternalServiceException
OperationTimeoutException
Ação ListJobs (Python: list_jobs)
Recupera os nomes de todos os recursos do trabalho nessa conta da AWS ou os recursos com a tag especificada. Essa operação permite que você veja quais recursos estão disponíveis em sua conta e seus nomes.
Essa operação aceita o campo Tags
opcional, que pode ser usado como um filtro na resposta, para que recursos com tags possam ser recuperados como um grupo. Se você optar por usar a filtragem por tags, apenas os recursos com a tag serão recuperados.
Solicitação
-
NextToken
– String UTF-8.Um token de continuação, se esta for uma solicitação de continuação.
-
MaxResults
– Número (inteiro), superior a 1 ou mais que 1000.O tamanho máximo de uma lista a ser retornada.
-
Tags
: uma matriz de mapa dos pares de chave-valor, não mais do que 50 pares.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.
Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.
Especifica apenas o retorno desses recursos com tags.
Resposta
-
JobNames
– Uma matriz de strings UTF-8.Os nomes de todos os trabalhos na conta ou os trabalhos com as tags especificadas.
-
NextToken
– String UTF-8.Um token de continuação, se a lista retornada não contiver a métrica mais recente disponível.
Erros
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
Ação BatchGetJobs (Python: batch_get_jobs)
Retorna uma lista de metadados do recurso para uma lista de nomes de trabalho. Depois de chamar a operação ListJobs
, você pode chamar essa operação para acessar os dados aos quais você recebeu permissões. Essa operação oferece suporte a todas as permissões do IAM, incluindo condições de permissão que usam tags.
Solicitação
-
JobNames
: obrigatório: uma matriz de strings UTF-8.Uma lista de nomes de trabalho, que podem ser os nomes retornados da operação
ListJobs
.
Resposta
-
Jobs
– Uma matriz de objetos Trabalho.Uma lista de definições de trabalho.
-
JobsNotFound
– Uma matriz de strings UTF-8.Uma lista de nomes de trabalho não encontrados.
Erros
InternalServiceException
OperationTimeoutException
InvalidInputException