Status de execução de trabalhos do AWS Glue no console - AWS Glue

Status de execução de trabalhos do AWS Glue no console

Você pode visualizar o status de um trabalho de extração, transformação e carregamento (ETL) do AWS Glue enquanto ele está em execução ou após a interrupção. É possível visualizar o status usando o console do AWS Glue. Para obter mais informações sobre o status de execução de trabalhos, consulte Status de execução de trabalhos do AWS Glue.

Acessar o painel de monitoramento de trabalhos

Acesse o painel de monitoramento de trabalhos escolhendo o link Monitoramento de execuções de trabalho no painel de navegação em Trabalhos de ETL.

Visão geral do painel de monitoramento de trabalhos

O painel de monitoramento de trabalhos fornece um resumo geral das execuções de trabalho, com totais para os trabalhos com um status Running (Executando), Canceled (Cancelado), Success (Bem-sucedido) ou Failed (Com falha). Os blocos adicionais fornecem a taxa geral de sucesso da execução do trabalho, o uso estimado de DPU para trabalhos, uma divisão das contagens de status de trabalhos por tipo de trabalho, tipo de operador e dia.

Os gráficos nos blocos são interativos. Você pode escolher qualquer bloco em um gráfico para executar um filtro que exiba apenas esses trabalhos na tabela Job runs (Execuções do trabalho) na parte inferior da página.

Você pode alterar o intervalo de datas para as informações exibidas nessa página usando o seletor Data range (Intervalo de datas). Quando você altera o intervalo de datas, os blocos de informações são ajustados a fim de exibir os valores para o número especificado de dias antes da data atual. Você também pode usar um intervalo de datas específico se escolher Custom (Personalizado) no seletor de intervalo de datas.

Visualizar execuções do trabalho

nota

O histórico de execução de trabalhos pode ser acessado por 90 dias para seu fluxo de trabalho e execução de trabalhos.

O recurso Job runs (Execuções do trabalho) exibe os trabalhos para o intervalo de datas e filtros especificados.

Você pode filtrar os trabalhos em critérios adicionais, como status, tipo de operador, tipo de trabalho e nome do trabalho. Na caixa de filtro na parte superior da tabela, você pode inserir o texto a ser usado como filtro. Os resultados da tabela são atualizados com linhas que contêm correspondências à medida que você digita o texto.

Você pode exibir um subconjunto dos trabalhos escolhendo elementos nos gráficos no painel de monitoramento de trabalho. Por exemplo, se você escolher o número de trabalhos em execução no bloco Job runs summary (Resumo de execuções do trabalho), a lista Job runs (Execuções do trabalho) exibe apenas os trabalhos que têm atualmente o status Running. Se você escolher uma das barras no gráfico de barras Worker type breakdown (Detalhamento do tipo de operador), somente as execuções de trabalho com o tipo de operador e status correspondentes serão mostrados na lista Job runs (Execuções do trabalho).

O recurso Job runs (Execuções do trabalho) exibe os detalhes das execuções do trabalho. É possível classificar as linhas na tabela escolhendo um cabeçalho de coluna. A tabela contém as seguintes informações:

Propriedade Descrição
Nome do trabalho O nome do trabalho do .
Tipo

O tipo de ambiente do trabalho:

  • Glue ETL (ETL do Glue): execuções em um ambiente Apache Spark gerenciado pelo AWS Glue.

  • Glue Streaming (Transmissão do Glue): executa em um ambiente Apache Spark e realiza ETL em fluxos de dados.

  • Python shell: executa scripts do Python como um shell.

Horário de início

A data e a hora em que a execução deste trabalho foi iniciada.

End time (Horário de término)

A data e a hora em que a execução desse trabalho foi concluída.

Run status (Status da execução)

O estado atual da execução do trabalho. Os valores podem ser:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Run time (runtime) A quantidade de tempo em que a execução de trabalho consumiu recursos.
Capacity

O número de unidades de processamento de dados (DPUs) do AWS Glue alocadas para essa execução de trabalho. Para obter mais informações sobre planejamento de capacidade, consulte Monitoramento de planejamento de capacidade de DPU no Guia do desenvolvedor do AWS Glue.

Tipo de operador

O tipo de operador predefinido que é alocado quando um trabalho é executado. Os valores podem ser G.1X, G.2X, G.4X ou G.8X.

  • G.1X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador mapeia para 1 DPU (4 vCPUs, 16 GB de memória) com 84 GB de disco (aproximadamente 34 GB livres). Recomendamos esse tipo de operador para trabalhos com uso intensivo de memória. Esse é o Worker type (Tipo de operador) padrão para trabalhos do AWS Glue versão 2.0 ou posterior.

  • G.2X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador mapeia para 2 DPU (8 vCPUs, 32 GB de memória) com 128 GB de disco (aproximadamente 77 GB livres). Recomendamos esse tipo de operador para trabalhos com uso intensivo de memória e trabalhos que executem transformações de machine learning.

  • G.4X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador mapeia para 4 DPU (16 vCPUs, 64 GB de memória) com 256 GB de disco (aproximadamente 235 GB livres). Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível somente para trabalhos de ETL do Spark no AWS Glue versão 3.0 ou posterior nas seguintes regiões da AWS: Leste dos EUA (Ohio), Leste dos EUA (Norte da Virgínia), Oeste dos EUA (Oregon), Ásia-Pacífico (Singapura), Ásia-Pacífico (Sydney), Ásia-Pacífico (Tóquio), Canadá (Central), Europa (Frankfurt), Europa (Irlanda) e Europa (Estocolmo).

  • G.8X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador mapeia para 8 DPU (32 vCPUs, 128 GB de memória) com 512 GB de disco (aproximadamente 487 GB livres). Recomendamos esse tipo de operador para trabalhos cujas workloads contêm as transformações, agregações, uniões e consultas mais exigentes. Esse tipo de operador está disponível apenas para trabalhos ETL do Spark do AWS Glue versão 3.0 ou posterior, nas mesmas regiões da AWS compatíveis com o tipo de operador G.4X.

DPU hours (Horas de DPU)

O número estimado de DPUs usadas para a execução de trabalho. Uma DPU é uma medida relativa do poder de processamento. As DPUs são usadas para determinar o custo da execução de trabalho. Para obter mais informações, consulte a página de definição de preços do AWS Glue.

É possível escolher qualquer execução de trabalho na lista e visualizar informações adicionais. Escolha uma execução de trabalho e realize uma das seguintes ações:

  • Selecione o menu Actions (Ações) e a opção View job (Visualizar trabalho) para visualizar o trabalho no editor visual.

  • Selecione o menu Actions (Ações) e a opção Stop run (Interromper execução) para interromper a execução atual do trabalho.

  • Escolha o botão View CloudWatch logs (Visualizar logs do CloudWatch) para exibir os logs de execução do trabalho.

  • Escolha Visualizar detalhes para visualizar a página de detalhes da execução do trabalho.

Visualizar os logs de execuções de trabalho

Você pode visualizar os logs de trabalhos de várias maneiras:

  • Na página Monitoring (Monitoramento), na tabela Job runs (Execuções do trabalho), escolha uma execução de trabalho e selecione View CloudWatch logs (Visualizar logs do CloudWatch).

  • No editor visual de trabalhos, na guia Runs (Execuções) de um trabalho, escolha os hiperlinks para exibir os logs:

    • Logs: links para os logs de trabalho do Apache Spark gravados quando o registro em log contínuo é habilitado para uma execução de trabalho. Quando você escolhe esse link, ele leva você para os logs do Amazon CloudWatch no grupo de logs /aws-glue/jobs/logs-v2. Por padrão, os logs excluem a pulsação do Apache Hadoop YARN e as mensagens de log do driver ou do executor do Apache Spark desnecessárias. Para obter mais informações sobre registro em log contínuo, consulte Registro em log contínuo para trabalhos do AWS Glue no Guia do desenvolvedor do AWS Glue.

    • Error logs (Logs de erro): vinculam-se aos logs gravados em stderr para a execução de trabalho. Quando você escolhe esse link, ele leva você para os logs do Amazon CloudWatch no grupo de logs /aws-glue/jobs/error. Você pode usar esses logs para exibir detalhes sobre os erros que foram encontrados durante a execução de trabalho.

    • Output logs (Logs de saída): links para os logs gravados em stdout para a execução de trabalho. Quando você escolhe esse link, ele leva você para os logs do Amazon CloudWatch no grupo de logs /aws-glue/jobs/output. Você pode usar esses logs para ver todos os detalhes sobre as tabelas que foram criadas no AWS Glue Data Catalog e os erros que foram encontrados.

Visualizar os detalhes de uma execução de trabalho

Você pode escolher um trabalho na lista Job runs (Execuções do trabalho) na página Monitoring (Monitoramento) e, em seguida, escolher View run details (Visualizar detalhes da execução) para ver informações detalhadas sobre a execução de trabalho.

As informações exibidas na página de detalhes da execução de trabalho incluem:

Propriedade Descrição
Nome do trabalho O nome do trabalho do .
Run status (Status da execução)

O estado atual da execução do trabalho. Os valores podem ser:

  • STARTING

  • RUNNING

  • STOPPING

  • STOPPED

  • SUCCEEDED

  • FAILED

  • TIMEOUT

Versão do Glue A versão do AWS Glue usada pela execução de trabalho.
Recent attempt (Tentativa recente) O número de tentativas automáticas de repetição da execução deste trabalho.
Horário de início

A data e a hora em que a execução deste trabalho foi iniciada.

End time (Horário de término)

A data e a hora em que a execução desse trabalho foi concluída.

Start-up time (Horário de início)

A quantidade de tempo gasta preparando para executar o trabalho.

Tempo de execução

A quantidade de tempo gasta executando o script do trabalho.

Nome do gatilho

O nome do acionador associado ao trabalho.

Modificação mais recente

A data em que o trabalho foi modificado pela última vez.

Configuração de segurança

A configuração de segurança do trabalho, que inclui criptografia do Amazon S3, criptografia do CloudWatch e configurações de criptografia de marcadores de trabalho.

Timeout (Tempo limite) O valor do tempo limite da execução de trabalho.
Allocated capacity (Capacidade alocada)

O número de unidades de processamento de dados (DPUs) do AWS Glue alocadas para essa execução de trabalho. Para obter mais informações sobre planejamento de capacidade, consulte Monitoramento de planejamento de capacidade de DPU no Guia do desenvolvedor do AWS Glue.

Max capacity (Capacidade máxima)

A capacidade máxima disponível para a execução de trabalho.

Número de operadores O número de operadores usados para a execução de trabalho.
Tipo de operador

O tipo de operadores predefinidos alocados para a execução de trabalho. Os valores podem ser G.1X ou G.2X.

  • G.1X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador é mapeado para 1 DPU (4 vCPUs, 16 GB de memória, disco de 64 GB), e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos com uso intensivo de memória. Esse é o Worker type (Tipo de operador) padrão para trabalhos do AWS Glue versão 2.0 ou posterior.

  • G.2X: ao escolher esse tipo, você também fornece um valor para Number of workers (Número de operadores). Cada operador é mapeado para 2 DPUs (8 vCPUs, 32 GB de memória, disco de 128 GB), e fornece 1 executor por operador. Recomendamos esse tipo de operador para trabalhos com uso intensivo de memória e trabalhos que executem transformações de machine learning.

Logs Um link para os logs de trabalho para registro em log contínuo (/aws-glue/jobs/logs-v2).
Output Logs (Logs de saída) Um link para os arquivos de log de saída do trabalho (/aws-glue/jobs/output).
Logs de erro Um link para os arquivos de log de erros do trabalho (/aws-glue/jobs/error).

Você também pode visualizar os seguintes itens adicionais, os quais se tornam disponíveis ao visualizar informações sobre execuções de trabalhos recentes. Para ter mais informações, consulte Exibir informações para execuções de trabalho recentes.

Visualizar métricas do Amazon CloudWatch para uma execução de trabalho do Spark

Na página de detalhes de uma execução de trabalho, abaixo da seção Run details (Detalhes da execução), você pode visualizar as métricas do trabalho. O AWS Glue Studio envia métricas de trabalho para o Amazon CloudWatch para cada trabalho executado.

O AWS Glue relata as métricas ao Amazon CloudWatch a cada 30 segundos. As métricas do AWS Glue representam valores do delta a partir dos valores relatados anteriormente. Quando apropriado, os painéis de métricas agregam (somam) os valores de 30 segundos para obter um valor para o último minuto inteiro. No entanto, as métricas do Apache Spark que o AWS Glue transfere para o Amazon CloudWatch são geralmente valores absolutos que representam o estado atual no momento em que são relatadas.

nota

Você deve configurar sua conta para acessar o Amazon CloudWatch.

As métricas fornecem informações sobre a execução de trabalho, como:

  • ETL Data Movement (Movimentação de dados de ETL): o número de bytes lidos ou gravados no Amazon S3.

  • Memory Profile: Heap used (Perfil de memória: heap usado): o número de bytes de memória usados pelo heap da máquina virtual Java (JVM).

  • Memory Profile: heap usage (Perfil de memória: uso do heap): a fração da memória (escala: 0 a 1) usada pelo heap da JVM.

  • CPU Load (Carga da CPU): a fração da carga do sistema da CPU usada (escala: 0 a 1), exibida em porcentagem.

Visualizar métricas do Amazon CloudWatch para uma execução de trabalho do Ray

Na página de detalhes de uma execução de trabalho, abaixo da seção Run details (Detalhes da execução), você pode visualizar as métricas do trabalho. O AWS Glue Studio envia métricas de trabalho para o Amazon CloudWatch para cada trabalho executado.

O AWS Glue relata as métricas ao Amazon CloudWatch a cada 30 segundos. As métricas do AWS Glue representam valores do delta a partir dos valores relatados anteriormente. Quando apropriado, os painéis de métricas agregam (somam) os valores de 30 segundos para obter um valor para o último minuto inteiro. No entanto, as métricas do Apache Spark que o AWS Glue transfere para o Amazon CloudWatch são geralmente valores absolutos que representam o estado atual no momento em que são relatadas.

nota

Você deve configurar sua conta para acessar o Amazon CloudWatch, conforme descrito em .

Nas trabalhos do Ray, você pode visualizar os seguintes gráficos de métrica agregados. Com elas, você pode criar um perfil do cluster e das tarefas, e pode acessar informações detalhadas sobre cada nó. Os dados de séries temporais que sustentam esses gráficos estão disponíveis no CloudWatch para análise posterior.

Perfil da tarefa: estado da tarefa

Mostra o número de tarefas do Ray no sistema. Cada ciclo de vida da tarefa tem sua própria série temporal.

Perfil da tarefa: Nome da tarefa

Mostra o número de tarefas do Ray no sistema. Somente tarefas pendentes e ativas são mostradas. Cada tipo de tarefa (por nome) recebe sua própria série temporal.

Perfil de cluster: CPUs em uso

Mostra o número de núcleos de CPU usados. Cada nó recebe sua própria série temporal. Os nós são identificados por endereços IP, que são efêmeros e usados apenas para identificação.

Perfil do cluster: uso da memória de armazenamento de objetos

Mostra o uso de memória pelo cache de objetos do Ray. Cada localização da memória (memória física, armazenada em cache no disco e distribuída no Amazon S3) tem sua própria série temporal. O armazenamento de objetos gerencia o armazenamento de dados em todos os nós do cluster. Para obter mais informações, consulte Objects na documentação do Ray.

Perfil do cluster: número de nós

Mostra o número de nós provisionados para o cluster.

Detalhe do nó: uso da CPU

Mostra a utilização da CPU em cada nó como uma porcentagem. Cada série mostra uma porcentagem agregada do uso da CPU em todos os núcleos do nó.

Detalhe do nó: uso de memória

Mostra o uso da memória em cada nó em GB. Cada série mostra a memória agregada entre todos os processos no nó, incluindo tarefas do Ray e o processo de armazenamento do Plasma. Isso não refletirá objetos armazenados em disco ou derramados no Amazon S3.

Detalhe do nó: uso de disco

Mostra o uso de disco em cada nó em GB.

Detalhe do nó: velocidade de E/S do disco

Mostra a E/S de disco em cada nó em KB/s.

Detalhe do nó: throughput de E/S da rede

Mostra a E/S de rede em cada nó em KB/s.

Detalhe do nó: uso da CPU pelo componente do Ray

Mostra o uso da CPU em frações de um núcleo. Cada componente do Ray em cada nó recebe sua própria série temporal.

Detalhe do nó: uso da memória pelo componente do Ray

Mostra o uso da memória em GiB. Cada componente do Ray em cada nó recebe sua própria série temporal.