Tarefas - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tarefas

A API Jobs descreve os tipos de dados e a API relacionados à criação, atualização, exclusão ou visualização de trabalhos em AWS Glue.

Tipos de dados

Estrutura Job

Especifica uma definição de trabalho.

Campos
  • Name – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome que você atribui a esta definição de trabalho.

  • JobMode – String UTF-8 (valores válidos: SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Um modo que descreve como um trabalho foi criado. Os valores válidos são:

    • SCRIPT- O trabalho foi criado usando o editor de scripts do AWS Glue Studio.

    • VISUAL- O trabalho foi criado usando o editor visual do AWS Glue Studio.

    • NOTEBOOK: o trabalho foi criado usando um caderno de sessões interativas.

    Quando o campo JobMode está ausente ou é nulo, SCRIPT é atribuído como o valor padrão.

  • Description – String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.

    Uma descrição do trabalho.

  • LogUri – String UTF-8.

    Este campo está reservado para uso futuro.

  • Role – String UTF-8.

    O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esta trabalho.

  • CreatedOn – Timestamp.

    A hora e a data em que esta definição de trabalho foi criada.

  • LastModifiedOn – Timestamp.

    O último momento em que esta definição de trabalho foi modificada.

  • ExecutionProperty – Um objeto ExecutionProperty.

    Um ExecutionProperty que especifica o número máximo de execuções simultâneas permitidas para o trabalho.

  • Command – Um objeto JobCommand.

    O JobCommand que executa esse trabalho.

  • DefaultArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.

    Você pode especificar aqui argumentos que seu próprio script de execução de tarefas consome, bem como argumentos que ele AWS Glue mesmo consome.

    Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere segredos de uma AWS Glue Conexão AWS Secrets Manager ou de outro mecanismo de gerenciamento de segredos se você quiser mantê-los dentro do Job.

    Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.

  • NonOverridableArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.

  • Connections – Um objeto ConnectionsList.

    As conexões usadas no trabalho.

  • MaxRetries – Número (íntegro).

    O número máximo de vezes para repetir esse trabalho após uma JobRun falha.

  • AllocatedCapacity – Número (íntegro).

    Este campo está obsoleto. Use MaxCapacity em vez disso.

    O número de unidades de processamento de AWS Glue dados (DPUs) alocadas para a execução desse trabalho. Você pode alocar um mínimo de 2 DPUs. O padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

  • Timeout – Número (inteiro), pelo menos 1.

    O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status TIMEOUT. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.

    Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.

  • MaxCapacity – Número (duplo).

    Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de trabalhador padrão, o número de unidades de processamento de AWS Glue dados (DPUs) que podem ser alocadas quando esse trabalho é executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

    Para trabalhos do Glue versão 2.0 ou posterior, você não pode um Maximum capacity. Em vez disso, você deve especificar um Worker type e o Number of workers.

    Não defina MaxCapacity se estiver usando WorkerType e NumberOfWorkers.

    O valor que pode ser alocado para MaxCapacity depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:

    • Ao especificar um trabalho de shell do Python (JobCommand.Name="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU.

    • Ao especificar um trabalho de ETL do Apache Spark (JobCommand.Name="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.

  • WorkerType – String UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.

    • Para o tipo de operador G.1X, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.2X, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.4X, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark AWS nas seguintes regiões: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo).

    • Para o tipo de operador G.8X, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark, nas mesmas AWS regiões compatíveis com o tipo de G.4X trabalhador.

    • Para o tipo de operador G.025X, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de trabalhador está disponível somente para trabalhos de streaming da AWS Glue versão 3.0.

    • Para o tipo de operador Z.2X, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.

  • NumberOfWorkers – Número (íntegro).

    O número de operadores de determinado workerType que são alocados quando um trabalho é executado.

  • SecurityConfiguration – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da estrutura de SecurityConfiguration a ser usada com esse trabalho.

  • NotificationProperty – Um objeto NotificationProperty.

    Especifica propriedades de configuração de uma notificação de trabalho.

  • Running – Booleano.

    Este campo está reservado para uso futuro.

  • GlueVersion – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.

    Nas tarefas do Spark, GlueVersion determina as versões do Apache Spark e do Python que AWS Glue estão disponíveis em uma tarefa. A versão do Python indica a versão compatível com trabalhos do tipo Spark.

    Os trabalhos de Ray devem definir GlueVersion como 4.0 ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetro Runtime do comando Job.

    Para obter mais informações sobre as AWS Glue versões disponíveis e as versões correspondentes do Spark e do Python, consulte a versão Glue no guia do desenvolvedor.

    Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.

  • CodeGenConfigurationNodes – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #39.

    Cada valor é um objeto CodeGenConfigurationNode A.

    A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.

  • ExecutionClass: string UTF-8, inferior a 16 bytes de comprimento (valores válidos: FLEX="" | STANDARD="").

    Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.

    A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.

    Somente trabalhos com a AWS Glue versão 3.0 e superior e o tipo de comando glueetl poderão ser definidos como ExecutionClassFLEX. A classe de execução flexível está disponível para trabalhos do Spark.

  • SourceControlDetails – Um objeto SourceControlDetails.

    Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.

  • MaintenanceWindow – String UTF-8 correspondente a Custom string pattern #30.

    Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, AWS Glue será necessário reiniciar seus trabalhos de streaming.

    AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).

  • ProfileName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome de um perfil de AWS Glue uso associado ao trabalho.

ExecutionProperty estrutura

Uma propriedade de execução de um trabalho.

Campos
  • MaxConcurrentRuns – Número (íntegro).

    O número máximo de execuções simultâneas permitidas para o trabalho. O padrão é um. Um erro será retornado quando este limite for atingido. O valor máximo que você pode especificar é controlado por um limite de serviço.

NotificationProperty estrutura

Especifica propriedades de configuração de uma notificação.

Campos
  • NotifyDelayAfter – Número (inteiro), pelo menos 1.

    Depois que a execução de um trabalho for iniciada, o número de minutos a esperar antes de enviar uma notificação de atraso de execução de trabalho.

JobCommand estrutura

Especifica o código executado quando um trabalho é executado.

Campos
  • Name – String UTF-8.

    O nome do comando de trabalho. Para um trabalho de ETL do Apache Spark, ele deve ser glueetl. Para um trabalho de shell do Python, ele deve ser pythonshell. Para um trabalho de ETL de streaming do Apache Spark, ele deve ser gluestreaming. Para um trabalho do Ray, isso deve ser glueray.

  • ScriptLocation: string UTF-8, não superior a 400.000 bytes de comprimento.

    Especifica o caminho do Amazon Simple Storage Service (Amazon S3) para um script que executa um trabalho.

  • PythonVersion – String UTF-8 correspondente a Custom string pattern #21.

    A versão de Python que está em uso para executar um trabalho de shell em Python. Os valores permitidos são 2 ou 3.

  • Runtime: string UTF-8, com no máximo 64 bytes de comprimento, correspondendo a Custom string pattern #29.

    Em trabalhos do Ray, Runtime é usado para especificar as versões do Ray, do Python e das bibliotecas adicionais disponíveis no ambiente. Esse campo não é usado em outros tipos de trabalho. Para obter os valores de ambiente de execução compatíveis, consulte Ambientes de tempo de execução Ray compatíveis no Guia do AWS Glue desenvolvedor.

ConnectionsList estrutura

Especifica as conexões usadas por um trabalho.

Campos
  • Connections – Uma matriz de strings UTF-8.

    Uma lista das conexões usadas pelo trabalho.

JobUpdate estrutura

Especifica as informações usadas para atualizar uma definição de trabalho existente. A definição de trabalho anterior é totalmente substituída por essa informação.

Campos
  • JobMode – String UTF-8 (valores válidos: SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Um modo que descreve como um trabalho foi criado. Os valores válidos são:

    • SCRIPT- O trabalho foi criado usando o editor de scripts do AWS Glue Studio.

    • VISUAL- O trabalho foi criado usando o editor visual do AWS Glue Studio.

    • NOTEBOOK: o trabalho foi criado usando um caderno de sessões interativas.

    Quando o campo JobMode está ausente ou é nulo, SCRIPT é atribuído como o valor padrão.

  • Description – String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.

    Descrição do trabalho que está sendo definido.

  • LogUri – String UTF-8.

    Este campo está reservado para uso futuro.

  • Role – String UTF-8.

    O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esse trabalho (obrigatório).

  • ExecutionProperty – Um objeto ExecutionProperty.

    Um ExecutionProperty que especifica o número máximo de execuções simultâneas permitidas para o trabalho.

  • Command – Um objeto JobCommand.

    O JobCommand que executa esse trabalho (obrigatório).

  • DefaultArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.

    Você pode especificar aqui argumentos que seu próprio script de execução de tarefas consome, bem como argumentos que ele AWS Glue mesmo consome.

    Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere segredos de uma AWS Glue Conexão AWS Secrets Manager ou de outro mecanismo de gerenciamento de segredos se você quiser mantê-los dentro do Job.

    Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.

  • NonOverridableArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.

  • Connections – Um objeto ConnectionsList.

    As conexões usadas no trabalho.

  • MaxRetries – Número (íntegro).

    O número máximo de novas tentativas desse trabalho em caso de falha.

  • AllocatedCapacity – Número (íntegro).

    Este campo está obsoleto. Use MaxCapacity em vez disso.

    O número de unidades de processamento de AWS Glue dados (DPUs) a serem alocadas para esse trabalho. Você pode alocar um mínimo de 2 DPUs. O padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

  • Timeout – Número (inteiro), pelo menos 1.

    O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status TIMEOUT. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.

    Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.

  • MaxCapacity – Número (duplo).

    Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de trabalhador padrão, o número de unidades de processamento de AWS Glue dados (DPUs) que podem ser alocadas quando esse trabalho é executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

    Para trabalhos do Glue versão 2.0+, você não pode especificar uma Maximum capacity. Em vez disso, você deve especificar um Worker type e o Number of workers.

    Não defina MaxCapacity se estiver usando WorkerType e NumberOfWorkers.

    O valor que pode ser alocado para MaxCapacity depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:

    • Ao especificar um trabalho de shell do Python (JobCommand.Name="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU.

    • Ao especificar um trabalho de ETL do Apache Spark (JobCommand.Name="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.

  • WorkerType – String UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.

    • Para o tipo de operador G.1X, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.2X, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.4X, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark AWS nas seguintes regiões: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo).

    • Para o tipo de operador G.8X, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark, nas mesmas AWS regiões compatíveis com o tipo de G.4X trabalhador.

    • Para o tipo de operador G.025X, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de trabalhador está disponível somente para trabalhos de streaming da AWS Glue versão 3.0.

    • Para o tipo de operador Z.2X, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.

  • NumberOfWorkers – Número (íntegro).

    O número de operadores de determinado workerType que são alocados quando um trabalho é executado.

  • SecurityConfiguration – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da estrutura de SecurityConfiguration a ser usada com esse trabalho.

  • NotificationProperty – Um objeto NotificationProperty.

    Especifica as propriedades de configuração de uma notificação de trabalho.

  • GlueVersion – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.

    Nas tarefas do Spark, GlueVersion determina as versões do Apache Spark e do Python que AWS Glue estão disponíveis em uma tarefa. A versão do Python indica a versão compatível com trabalhos do tipo Spark.

    Os trabalhos de Ray devem definir GlueVersion como 4.0 ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetro Runtime do comando Job.

    Para obter mais informações sobre as AWS Glue versões disponíveis e as versões correspondentes do Spark e do Python, consulte a versão Glue no guia do desenvolvedor.

    Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.

  • CodeGenConfigurationNodes – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #39.

    Cada valor é um objeto CodeGenConfigurationNode A.

    A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.

  • ExecutionClass: string UTF-8, inferior a 16 bytes de comprimento (valores válidos: FLEX="" | STANDARD="").

    Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.

    A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.

    Somente trabalhos com a AWS Glue versão 3.0 e superior e o tipo de comando glueetl poderão ser definidos como ExecutionClassFLEX. A classe de execução flexível está disponível para trabalhos do Spark.

  • SourceControlDetails – Um objeto SourceControlDetails.

    Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.

  • MaintenanceWindow – String UTF-8 correspondente a Custom string pattern #30.

    Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, AWS Glue será necessário reiniciar seus trabalhos de streaming.

    AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).

  • ProfileName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome de um perfil de AWS Glue uso associado ao trabalho.

SourceControlDetails estrutura

Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.

Campos
  • Provider – String UTF-8.

    O provedor do repositório remoto.

  • Repository: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    O nome do repositório remoto que contém os artefatos do trabalho.

  • Owner: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    O proprietário do repositório remoto que contém os artefatos do trabalho.

  • Branch: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    Uma ramificação opcional no repositório remoto.

  • Folder: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    Uma pasta opcional no repositório remoto.

  • LastCommitId: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    O último ID de confirmação no repositório remoto.

  • LastSyncTimestamp: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    A data e a hora em que a última sincronização de trabalho foi realizada.

  • AuthStrategy – String UTF-8.

    O tipo de autenticação, que pode ser um token de autenticação armazenado no AWS Secrets Manager ou um token de acesso pessoal.

  • AuthToken: string UTF-8, não menos do que 1 ou superior a 512 bytes de comprimento.

    O valor de um token de autorização.

Operações

CreateJob ação (Python: create_job)

Cria uma nova definição de trabalho.

Solicitação
  • NameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome que você atribui a esta definição de trabalho. Ele deve ser exclusivo na sua conta da .

  • JobMode – String UTF-8 (valores válidos: SCRIPT="" | VISUAL="" | NOTEBOOK="").

    Um modo que descreve como um trabalho foi criado. Os valores válidos são:

    • SCRIPT- O trabalho foi criado usando o editor de scripts do AWS Glue Studio.

    • VISUAL- O trabalho foi criado usando o editor visual do AWS Glue Studio.

    • NOTEBOOK: o trabalho foi criado usando um caderno de sessões interativas.

    Quando o campo JobMode está ausente ou é nulo, SCRIPT é atribuído como o valor padrão.

  • Description – String de descrição, inferior a 2048 bytes de comprimento, correspondente a URI address multi-line string pattern.

    Descrição do trabalho que está sendo definido.

  • LogUri – String UTF-8.

    Este campo está reservado para uso futuro.

  • RoleObrigatório: string UTF-8.

    O nome ou o nome de recurso da Amazon (ARN) da função do IAM associada a esta trabalho.

  • ExecutionProperty – Um objeto ExecutionProperty.

    Um ExecutionProperty que especifica o número máximo de execuções simultâneas permitidas para o trabalho.

  • CommandObrigatório: um objeto JobCommand.

    O JobCommand que executa esse trabalho.

  • DefaultArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Os argumentos padrão para toda execução desse trabalho, especificados como pares de nome-valor.

    Você pode especificar aqui argumentos que seu próprio script de execução de tarefas consome, bem como argumentos que ele AWS Glue mesmo consome.

    Os argumentos do trabalho podem ser registrados em log. Não transmita segredos em texto simples como argumentos. Recupere segredos de uma AWS Glue Conexão AWS Secrets Manager ou de outro mecanismo de gerenciamento de segredos se você quiser mantê-los dentro do Job.

    Para obter informações sobre como especificar e consumir seus próprios argumentos de trabalho, consulte o tópico Chamar APIs do AWS Glue em Python no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Spark, consulte o tópico Special Parameters Used by AWS Glue no guia do desenvolvedor.

    Para obter informações sobre os argumentos que você pode fornecer a esse campo ao configurar trabalhos do Ray, consulte o tópico Using job parameters in Ray jobs no guia do desenvolvedor.

  • NonOverridableArguments – Um array de mapa dos pares de valor-chave.

    Cada chave é uma sequência de caracteres UTF-8.

    Cada valor é uma sequência de caracteres UTF-8.

    Argumentos para esse trabalho que não são substituídos ao fornecer argumentos de trabalho na execução de um trabalho, especificados como pares de nome-valor.

  • Connections – Um objeto ConnectionsList.

    As conexões usadas no trabalho.

  • MaxRetries – Número (íntegro).

    O número máximo de novas tentativas desse trabalho em caso de falha.

  • AllocatedCapacity – Número (íntegro).

    Esse parâmetro está suspenso. Use MaxCapacity em vez disso.

    O número de unidades de processamento de AWS Glue dados (DPUs) a serem alocadas para esse Job. Você pode alocar um mínimo de 2 DPUs. O padrão é 10. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

  • Timeout – Número (inteiro), pelo menos 1.

    O tempo limite do trabalho em minutos. Este é o tempo máximo durante o qual uma execução de trabalho pode consumir recursos antes de ser encerrada e entrar no status TIMEOUT. O padrão é 2.880 minutos (48 horas) para tarefas em lotes.

    Os trabalhos de streaming devem ter valores de tempo limite inferiores a 7 dias ou 10.080 minutos. Quando o valor for deixado em branco, o trabalho será reiniciado após 7 dias, caso você não tenha configurado uma janela de manutenção. Se você tiver uma janela de manutenção de configuração, ela será reiniciada durante a janela de manutenção após 7 dias.

  • MaxCapacity – Número (duplo).

    Para trabalhos do Glue versão 1.0 ou anterior, usando o tipo de trabalhador padrão, o número de unidades de processamento de AWS Glue dados (DPUs) que podem ser alocadas quando esse trabalho é executado. Uma DPU é uma medida relativa do poder de processamento que consiste em uma capacidade computacional de 4 vCPUs e 16 GB de memória. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

    Para trabalhos do Glue versão 2.0+, você não pode especificar uma Maximum capacity. Em vez disso, você deve especificar um Worker type e o Number of workers.

    Não defina MaxCapacity se estiver usando WorkerType e NumberOfWorkers.

    O valor que pode ser alocado para MaxCapacity depende se você está executando um trabalho de shell do Python, um trabalho de ETL do Apache Spark ou um trabalho de ETL de streaming do Apache Spark:

    • Ao especificar um trabalho de shell do Python (JobCommand.Name="pythonshell"), você poderá alocar 0,0625 ou 1 DPU. O padrão é 0,0625 DPU.

    • Ao especificar um trabalho de ETL do Apache Spark (JobCommand.Name="glueetl") ou um trabalho de ETL de streaming do Apache Spark (JobCommand.Name="gluestreaming"), é possível alocar de 2 a 100 DPUs. O padrão é de 10 DPUs. Esse tipo de trabalho não pode ter uma alocação de DPU fracionada.

  • SecurityConfiguration – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da estrutura de SecurityConfiguration a ser usada com esse trabalho.

  • Tags: uma matriz de mapa dos pares de chave-valor, não mais do que 50 pares.

    Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.

    Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.

    As tags a serem usadas com essa tarefa. Você pode usar tags para limitar o acesso à tarefa. Para obter mais informações sobre tags em AWS Glue, consulte AWS Tags AWS Glue in no guia do desenvolvedor.

  • NotificationProperty – Um objeto NotificationProperty.

    Especifica propriedades de configuração de uma notificação de trabalho.

  • GlueVersion – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Custom string pattern #20.

    Nas tarefas do Spark, GlueVersion determina as versões do Apache Spark e do Python que AWS Glue estão disponíveis em uma tarefa. A versão do Python indica a versão compatível com trabalhos do tipo Spark.

    Os trabalhos de Ray devem definir GlueVersion como 4.0 ou mais. Porém, as versões do Ray, do Python e das bibliotecas adicionais disponíveis no seu trabalho do Ray são determinadas pelo parâmetro Runtime do comando Job.

    Para obter mais informações sobre as AWS Glue versões disponíveis e as versões correspondentes do Spark e do Python, consulte a versão Glue no guia do desenvolvedor.

    Os trabalhos criados sem especificar uma versão do Glue usam como padrão o Glue 0.9.

  • NumberOfWorkers – Número (íntegro).

    O número de operadores de determinado workerType que são alocados quando um trabalho é executado.

  • WorkerType – String UTF-8 (valores válidos: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="").

    O tipo de operador predefinido que é alocado quando um trabalho é executado. Aceita um valor de G.1X, G.2X, G.4X, G.8X ou G.025X para trabalhos do Spark. Aceita o valor Z.2X para trabalhos do Ray.

    • Para o tipo de operador G.1X, cada operador é mapeado para 1 DPU (4 vCPU, 16 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.2X, cada operador é mapeado para 2 DPU (8 vCPU, 32 GB de memória) com disco de 128 GB (aproximadamente 77 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para workloads, como transformações de dados, uniões e consultas, para oferecer uma maneira escalável e econômica de executar a maioria dos trabalhos.

    • Para o tipo de operador G.4X, cada operador é mapeado para 4 DPU (16 vCPU, 64 GB de memória) com disco de 256 GB (aproximadamente 235 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark AWS nas seguintes regiões: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Cingapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo).

    • Para o tipo de operador G.8X, cada operador é mapeado para 8 DPU (32 vCPU, 128 GB de memória) com disco de 512 GB (aproximadamente 487 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de trabalhador está disponível somente para trabalhos ETL da AWS Glue versão 3.0 ou posterior do Spark, nas mesmas AWS regiões compatíveis com o tipo de G.4X trabalhador.

    • Para o tipo de operador G.025X, cada operador é mapeado para 0,25 DPU (2 vCPU, 4 GB de memória) com disco de 84 GB (aproximadamente 34 GB livres) e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos de streaming de baixo volume. Esse tipo de trabalhador está disponível somente para trabalhos de streaming da AWS Glue versão 3.0.

    • Para o tipo de operador Z.2X, cada operador é mapeado para 2 M-DPU (8 vCPUs, 64 GB de memória) com 128 GB de disco (aproximadamente 120 GB livres) e fornece até 8 operadores do Ray baseados no escalador automático.

  • CodeGenConfigurationNodes – Um array de mapa dos pares de valor-chave.

    Cada chave é uma string UTF-8 que corresponde a Custom string pattern #39.

    Cada valor é um objeto CodeGenConfigurationNode A.

    A representação de um gráfico acíclico direcionado no qual tanto o componente visual do Glue Studio quanto a geração de código do Glue Studio são baseados.

  • ExecutionClass: string UTF-8, inferior a 16 bytes de comprimento (valores válidos: FLEX="" | STANDARD="").

    Indica se o trabalho é executado com uma classe de execução padrão ou flexível. A classe de execução padrão é ideal para workloads sensíveis ao tempo que exigem a inicialização rápida de trabalhos e recursos dedicados.

    A classe de execução flexível é adequada para trabalhos insensíveis ao tempo, cujos horários de início e conclusão podem variar.

    Somente trabalhos com a AWS Glue versão 3.0 e superior e o tipo de comando glueetl poderão ser definidos como ExecutionClassFLEX. A classe de execução flexível está disponível para trabalhos do Spark.

  • SourceControlDetails – Um objeto SourceControlDetails.

    Os detalhes de uma configuração de controle de origem para um trabalho, permitindo a sincronização de artefatos de trabalho de ou para um repositório remoto.

  • MaintenanceWindow – String UTF-8 correspondente a Custom string pattern #30.

    Esse campo especifica um dia da semana e uma hora para uma janela de manutenção para trabalhos de streaming. AWS Glue realiza periodicamente atividades de manutenção. Durante essas janelas de manutenção, AWS Glue será necessário reiniciar seus trabalhos de streaming.

    AWS Glue reiniciará o trabalho dentro de 3 horas da janela de manutenção especificada. Por exemplo, se você configurar a janela de manutenção para segunda-feira às 10h (GMT), seus trabalhos serão reiniciados entre 10h (GMT) e 13h (GMT).

  • ProfileName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome de um perfil de AWS Glue uso associado ao trabalho.

Resposta
  • Name – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome exclusivo que foi fornecido para esta definição de trabalho.

Erros
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob ação (Python: update_job)

Atualiza uma definição de trabalho existente. A definição de trabalho anterior é totalmente substituída por essa informação.

Solicitação
  • JobNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    Nome da definição de trabalho a ser atualizada.

  • JobUpdateObrigatório: um objeto JobUpdate.

    Especifica os valores com os quais a definição de trabalho será atualizada. A configuração não especificada é removida ou redefinida para os valores padrão.

  • ProfileName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome de um perfil de AWS Glue uso associado ao trabalho.

Resposta
  • JobName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    Retorna o nome da definição de trabalho atualizada.

Erros
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob ação (Python: get_job)

Recupera uma definição de trabalho existente.

Solicitação
  • JobNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da definição de trabalho a ser recuperada.

Resposta
  • Job – Um objeto Trabalho.

    A definição de trabalho solicitada.

Erros
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs ação (Python: get_jobs)

Recupera todas as definições de trabalho atuais.

Solicitação
  • NextToken – String UTF-8.

    Um token de continuação, se esta for uma chamada de continuação.

  • MaxResults – Número (inteiro), superior a 1 ou mais que 1000.

    O tamanho máximo da resposta.

Resposta
  • Jobs – Uma matriz de objetos Trabalho.

    Uma lista de definições de trabalho.

  • NextToken – String UTF-8.

    Um token de continuação, caso algumas definições de trabalho ainda não tenham sido retornadas.

Erros
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob ação (Python: delete_job)

Exclui uma definição de trabalho especificada. Se a definição de trabalho não for encontrada, nenhuma exceção será gerada.

Solicitação
  • JobNameObrigatório: string UTF-8, no mínimo 1 ou mais de 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da definição de trabalho a ser excluída.

Resposta
  • JobName – String UTF-8, superior a 1 e inferior a 255 bytes de comprimento, correspondente a Single-line string pattern.

    O nome da definição de trabalho que foi excluída.

Erros
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs ação (Python: list_jobs)

Recupera os nomes de todos os recursos de trabalho nessa AWS conta ou os recursos com a tag especificada. Essa operação permite que você veja quais recursos estão disponíveis em sua conta e seus nomes.

Essa operação aceita o campo Tags opcional, que pode ser usado como um filtro na resposta, para que recursos com tags possam ser recuperados como um grupo. Se você optar por usar a filtragem por tags, apenas os recursos com a tag serão recuperados.

Solicitação
  • NextToken – String UTF-8.

    Um token de continuação, se esta for uma solicitação de continuação.

  • MaxResults – Número (inteiro), superior a 1 ou mais que 1000.

    O tamanho máximo de uma lista a ser retornada.

  • Tags: uma matriz de mapa dos pares de chave-valor, não mais do que 50 pares.

    Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes.

    Cada valor é uma string UTF-8, inferior a 256 bytes de comprimento.

    Especifica apenas o retorno desses recursos com tags.

Resposta
  • JobNames – Uma matriz de strings UTF-8.

    Os nomes de todos os trabalhos na conta ou os trabalhos com as tags especificadas.

  • NextToken – String UTF-8.

    Um token de continuação, se a lista retornada não contiver a métrica mais recente disponível.

Erros
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs ação (Python: batch_get_jobs)

Retorna uma lista de metadados do recurso para uma lista de nomes de trabalho. Depois de chamar a operação ListJobs, você pode chamar essa operação para acessar os dados aos quais você recebeu permissões. Essa operação oferece suporte a todas as permissões do IAM, incluindo condições de permissão que usam tags.

Solicitação
  • JobNames: obrigatório: uma matriz de strings UTF-8.

    Uma lista de nomes de trabalho, que podem ser os nomes retornados da operação ListJobs.

Resposta
  • Jobs – Uma matriz de objetos Trabalho.

    Uma lista de definições de trabalho.

  • JobsNotFound – Uma matriz de strings UTF-8.

    Uma lista de nomes de trabalho não encontrados.

Erros
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException