Habilitar a interface do usuário da Web do Apache Spark para trabalhos do AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Habilitar a interface do usuário da Web do Apache Spark para trabalhos do AWS Glue

Você pode usar a interface do usuário Web do Apache Spark para monitorar e depurar trabalhos de ETL do AWS Glue em execução no sistema de trabalhos do AWS Glue. Você pode configurar a interface do usuário do Spark usando o console do AWS Glue ou a AWS Command Line Interface (AWS CLI).

A cada 30 segundos, o AWS Glue faz backup dos logs de eventos do Spark para o caminho do Amazon S3 especificado.

Configurar a interface do usuário do Spark (console)

Siga estas etapas para configurar a interface do usuário do Spark usando o AWS Management Console. Ao criar um AWS Glue trabalho, a interface do usuário do Spark é ativada por padrão.

Para ativar a interface do Spark quando você cria ou edita um trabalho
  1. Faça login no AWS Management Console e abra o AWS Glue console em https://console.aws.amazon.com/glue/.

  2. No painel de navegação, escolha Tarefas.

  3. Escolha Adicionar trabalho ou selecione um trabalho que já exista.

  4. Em Detalhes do trabalho, abra as Propriedades avançadas.

  5. Na guia Interface do usuário do Spark, escolha Gravar logs da interface do usuário do Spark no Amazon S3.

  6. Especifique um caminho do Amazon S3 para armazenar os logs de eventos do Spark para o trabalho. Observe que, se você usar uma configuração de segurança no trabalho, a criptografia também se aplicará ao arquivo de log da interface do usuário do Spark. Para ter mais informações, consulte Criptografar dados gravados pelo AWS Glue.

  7. Em Configuração de log e monitoramento da interface do usuário do Spark:

    • Selecione Padrão se você estiver gerando registros para visualizar no AWS Glue console.

    • Selecione Legado se você estiver gerando logs para visualizar em um servidor de histórico do Spark.

    • Você também pode optar por gerar os dois.

Configurar a interface do usuário do Spark (AWS CLI)

Para gerar registros para visualização com a interface do usuário do Spark, no AWS Glue console, use o AWS CLI para passar os seguintes parâmetros de trabalho para AWS Glue trabalhos. Para ter mais informações, consulte Usando parâmetros de trabalho em trabalhos do AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Para distribuir logs para seus locais legados, defina o parâmetro --enable-spark-ui-legacy-path como "true". Se não quiser gerar logs nos dois formatos, remova o parâmetro --enable-spark-ui.

Configurar a interface do usuário do Spark para sessões usando cadernos

Atenção

AWS Glue No momento, as sessões interativas não oferecem suporte à interface do usuário do Spark no console. Configure um servidor de histórico do Spark.

Se você usa AWS Glue notebooks, configure o SparkUI antes de iniciar a sessão. Para fazer isso, use a célula da mágica %%configure:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Ativar registros contínuos

Habilitar o SparkUI e os arquivos de eventos de log contínuos para AWS Glue trabalhos oferece vários benefícios:

  • Arquivos de eventos de registro contínuo — Com os arquivos de eventos de registro contínuo ativados, AWS Glue gera arquivos de log separados para cada etapa da execução do trabalho, facilitando a identificação e a solução de problemas específicos de um determinado estágio ou transformação.

  • Melhor gerenciamento de registros — arquivos de eventos de log contínuos ajudam a gerenciar arquivos de log com mais eficiência. Em vez de ter um único arquivo de log potencialmente grande, os registros são divididos em arquivos menores e mais gerenciáveis com base nos estágios de execução do trabalho. Isso pode simplificar o arquivamento, a análise e a solução de problemas de registros.

  • Maior tolerância a falhas — Se um AWS Glue trabalho falhar ou for interrompido, os arquivos de eventos de registro contínuo podem fornecer informações valiosas sobre o último estágio bem-sucedido, facilitando a retomada do trabalho a partir desse ponto, em vez de começar do zero.

  • Otimização de custos — Ao ativar arquivos de eventos de log contínuos, você pode economizar nos custos de armazenamento associados aos arquivos de log. Em vez de armazenar um único arquivo de log potencialmente grande, você armazena arquivos de log menores e mais gerenciáveis, o que pode ser mais econômico, especialmente para trabalhos complexos ou de longa duração.

Em um novo ambiente, os usuários podem habilitar explicitamente os registros contínuos por meio de:

'—conf': 'spark.eventLog.rolling.enabled=true'

ou

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Quando os registros contínuos são ativados, spark.eventLog.rolling.maxFileSize especifica o tamanho máximo do arquivo de registro de eventos antes que ele seja transferido. O valor padrão desse parâmetro opcional, se não for especificado, é 128 MB. O mínimo é de 10 MB.

A soma máxima de todos os arquivos de eventos de log acumulados gerados é de 2 GB. Para AWS Glue trabalhos sem suporte a registros contínuos, o tamanho máximo do arquivo de eventos de log suportado pelo SparkUI é de 0,5 GB.

É possível desativar os logs contínuos de um trabalho de streaming por meio da passagem de uma configuração adicional. Observe que a manutenção de arquivos de log muito grandes pode ser cara.

Para desativar os logs contínuos, forneça a seguinte configuração:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'