Arquivos de log padrão Arquivamento dos arquivos de log no Amazon S3 Locais de log Controle o comportamento de registro do S3 (Amazon EMR 7.13.0 e versões posteriores)

Configuração de registro em log e depuração do cluster do Amazon EMR

Uma das questões a ser decidida quando você planeja o seu cluster é quanto de suporte à depuração você deseja disponibilizar. Quando você está desenvolvendo um aplicativo de processamento de dados pela primeira vez, recomendamos testar o aplicativo em um cluster processando um subconjunto pequeno, mas representativo, dos seus dados. Ao fazer isso, você provavelmente vai aproveitar todas as ferramentas de depuração que o Amazon EMR oferece, tais como o arquivamento de arquivos de log para o Amazon S3.

Uma vez concluído o desenvolvimento, e com o aplicativo de processamento de dados totalmente em produção, você pode optar por reduzir a depuração. Dessa forma, você pode economizar no custo do armazenamento de arquivos de log no Amazon S3 e reduzir a carga de processamento no cluster, pois ele não precisa mais gravar o estado no Amazon S3. O risco, obviamente, é que se ocorrer algum problema, você terá menos ferramentas disponíveis para investigar o erro.

Arquivos de log padrão

Por padrão, cada cluster grava arquivos de log em todos os nós. Esses são gravados no diretório /mnt/var/log/. Você pode acessá-los usando o SSH para se conectar a qualquer um dos nós, conforme descrito emComo se conectar ao nó primário do cluster do Amazon EMR usando SSH. O Amazon EMR coleta determinados logs de sistemas e aplicações gerados pelos daemons do Amazon EMR e outros processos do Amazon EMR para garantir operações de serviço eficazes.

nota

Se você usa o Amazon EMR versão 6.8.0 ou anterior, os arquivos de log não são salvos no Amazon S3 durante o encerramento do cluster, portanto, você não pode acessar os arquivos de log após o término dos nós. O Amazon EMR libera a versão 6.9.0 e versões posteriores arquiva os registros no Amazon S3 durante a redução da escala verticalmente do cluster, de forma que os arquivos de log gerados no cluster persistam mesmo após o término do nó.

Você não precisa habilitar nada para que os arquivos de log sejam gravados em todos os nós. Esse é o comportamento padrão do Amazon EMR e do Hadoop.

O Amazon EMR captura três categorias de registros para o registro no S3:

Registros do sistema: registros do daemon do EMR
Registros de aplicativos: registros de estrutura do Hadoop, Spark, Hive e outros aplicativos em execução no cluster
Registros de interface de usuário persistentes: registros necessários para interfaces de usuário de aplicativos persistentes, como Spark History Server e Tez UI

No sistema de arquivos local, um cluster gera vários tipos de arquivos de log/mnt/var/log, incluindo:

Logs de etapa: esses logs são gerados pelo serviço do Amazon EMR e contêm informações sobre o cluster e os resultados de cada etapa. Os arquivos de log são armazenados no diretório /mnt/var/log/hadoop/steps/ no nó primário. Cada etapa registra seus resultados em um subdiretório numerado separado: /mnt/var/log/hadoop/steps/s-stepId1/ para a primeira etapa, /mnt/var/log/hadoop/steps/s-stepId2/ para a segunda etapa, e assim por diante. Os identificadores de etapa de 13 caracteres (por exemplo, IdEtapa1, IdEtapa2) são exclusivos dos clusters.
Registros de componentes do Hadoop e do YARN — Os registros dos componentes associados ao Apache YARN e MapReduce, por exemplo, estão contidos em pastas separadas em todos os nós. /mnt/var/log Os locais dos arquivos de log para os componentes do Hadoop sob /mnt/var/log são os seguintes: hadoop-hdfs, hadoop-mapreduce, hadoop-httpfs e hadoop-yarn. O diretório hadoop-state-pusher é usado para os dados de saída do processo que envia o estado do Hadoop.
Logs de ação de bootstrap: se seu trabalho utiliza ações de bootstrap, os resultados dessas ações são registrados em logs. Os arquivos de log são armazenados em//mnt/varlog/bootstrap-actions/ em todos os nós. Cada ação de bootstrap registra seus resultados em um subdiretório numerado separado: /mnt/var/log/bootstrap-actions/1/ para a primeira ação de bootstrap, /mnt/var/log/bootstrap-actions/2/ para a segunda ação de bootstrap, e assim por diante.
Logs de estado de instância: esses logs fornecem informações sobre a CPU, o estado da memória e os threads do coletor de lixo do nó. Os arquivos de log são armazenados /mnt/var/log/instance-state/ em todos os nós.

Arquivamento dos arquivos de log no Amazon S3

nota

Atualmente não é possível usar a agregação de logs para o Amazon S3 com o utilitário yarn logs.

O Amazon EMR libera a versão 6.9.0 e versões posteriores arquiva os registros no Amazon S3 durante a redução da escala verticalmente do cluster, de forma que os arquivos de log gerados no cluster persistam mesmo após o término do nó. Esse comportamento é habilitado automaticamente, então não é necessário ativá-lo. Para as versões 6.8.0 e anteriores do Amazon EMR, você pode configurar um cluster para arquivar periodicamente os arquivos de log armazenados em todos os nós no Amazon S3. Isso garante que os arquivos de log estarão disponíveis depois que o cluster for terminado, seja por meio de desligamento normal, seja devido a um erro. O Amazon EMR arquiva os arquivos de log no Amazon S3 em intervalos de cinco minutos.

Para que os arquivos de log sejam arquivados no Amazon S3 para o Amazon EMR 6.8.0 e versões anteriores, você deve habilitar esse recurso ao executar o cluster. Você pode fazer isso usando o console, a CLI ou a API. Por padrão, os clusters executados por meio do console têm a funcionalidade de registro em log habilitada. Para clusters executados usando a CLI ou a API, o registro em log no Amazon S3 deve ser habilitado manualmente.

Console

Arquivar arquivos de log no Amazon S3 usando o novo console

Faça login no AWS Management Console e abra o console do Amazon EMR em. https://console.aws.amazon.com/emr
Em EMR no EC2, no painel de navegação esquerdo, escolha Clusters e depois Criar cluster.
Em Logs do cluster, marque a caixa de seleção Publicar logs específicos do cluster no Amazon S3.
No campo Local do Amazon S3, digite (ou navegue até) o caminho do Amazon S3 onde os logs serão armazenados. Se você digitar o nome de uma pasta que não existe no bucket, o Amazon S3 a criará.

Quando esse valor é definido, o Amazon EMR copia os arquivos de log das instâncias do EC2 no cluster para o Amazon S3. Isso evita que os arquivos de log sejam perdidos quando o cluster é encerrado e om EC2 termina as instâncias que hospedam o cluster. Esses logs são úteis para auxiliar na solução de problemas. Para obter mais informações, consulte View log files.
Opcionalmente, marque a caixa de seleção Criptografar logs específicos do cluster. Em seguida, selecione uma AWS KMS chave na lista, insira o ARN da chave ou crie uma nova chave. Essa opção só está disponível no Amazon EMR versão 5.30.0 e posteriores, excluindo a versão 6.0.0. Para usar essa opção, adicione permissão AWS KMS para seu perfil de instância do EC2 e função do Amazon EMR. Para obter mais informações, consulte Para criptografar arquivos de log armazenados no Amazon S3 com um AWS Chave KMS gerenciada pelo cliente.
Escolha qualquer outra opção que se aplique ao cluster.
Para iniciar o cluster, escolha Criar cluster.

CLI

Para arquivar arquivos de log no Amazon S3 com o AWS CLI

Para arquivar arquivos de log no Amazon S3 usando o AWS CLI, digite o create-cluster comando e especifique o caminho de log do Amazon S3 usando o parâmetro. --log-uri

Para registrar arquivos no Amazon S3, digite o seguinte comando e myKey substitua pelo nome do seu par de chaves do EC2.


aws emr create-cluster --name "Test cluster" --release-label emr-7.13.0 --log-uri s3://DOC-EXAMPLE-BUCKET/logs --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3

Quando você especifica a contagem de instâncias sem usar o parâmetro --instance-groups, um único nó primário é executado, e as instâncias restantes são executadas como nós centrais. Todos os nós usarão o tipo de instância especificado no comando.

nota
Se você não criou a perfil de serviço do Amazon EMR padrão e o perfil de instância do EC2, insira aws emr create-default-roles para criá-los antes de digitar o subcomando create-cluster.

Para criptografar arquivos de log armazenados no Amazon S3 com um AWS Chave KMS gerenciada pelo cliente

Com o Amazon EMR versão 5.30.0 e posterior (exceto o Amazon EMR 6.0.0), você pode criptografar arquivos de log armazenados no Amazon S3 com uma chave gerenciada pelo cliente KMS. AWS Para habilitar essa opção no console, siga as etapas em Arquivamento dos arquivos de log no Amazon S3. O perfil de instância do Amazon EC2 e o perfil do Amazon EMR devem atender aos seguintes pré-requisitos:

O perfil de instância do Amazon EC2 usado para o cluster deve ter permissão para usar kms:GenerateDataKey.
O perfil do Amazon EMR usada para o cluster deve ter permissão para usar kms:DescribeKey.
O perfil da instância do Amazon EC2 e a função do Amazon EMR devem ser adicionados à lista de usuários-chave da chave gerenciada pelo cliente AWS KMS especificada, conforme demonstrado nas etapas a seguir:
1. Abra o console AWS Key Management Service (AWS KMS) em https://console.aws.amazon.com/kms.
2. Para alterar a AWS região, use o seletor de região no canto superior direito da página.
3. Selecione o alias da chave do KMS a ser modificada.
4. Na página de detalhes da chave, em Key Users (Usuários de chaves), escolha Add (Adicionar).
5. Na caixa de diálogo Adicionar usuários de chave, selecione o perfil de instância do Amazon EC2 e o perfil do Amazon EMR.
6. Escolha Adicionar.

Você também deve configurar a chave do KMS para permitir as entidades principais persistentappui.elasticmapreduce.amazonaws.com e elasticmapreduce.amazonaws.com para kms:GenerateDataKey, kms:GenerateDataKeyWithoutPlaintext e kms:Decrypt. Isso permite que o EMR leia e grave logs criptografados com a chave do KMS no armazenamento gerenciado. O perfil do IAM do usuário deve ter permissão para usar kms:GenerateDataKey e kms:Decrypt.


{
   "Sid": "Allow User Role to use KMS key",
   "Effect": "Allow",
   "Principal": {
        "AWS": "User Role"
    },
    "Action": [
        "kms:Decrypt", 
        "kms:GenerateDataKey"
   ],
    "Resource": "*",
    "Condition": {
        "StringLike": {
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*",
           "kms:ViaService": "elasticmapreduce.region.amazonaws.com"
       }
    }
},
{
    "Sid": "Allow Persistent APP UI to validate KMS key for write",
    "Effect": "Allow",
    "Principal":{
        "Service": [
            "elasticmapreduce.amazonaws.com"
        ]
     },
     "Action": [
       "kms:GenerateDataKeyWithoutPlaintext"
      ],
     "Resource": "*",
     "Condition": {
        "StringLike": {
            "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*",
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*"
        }
     }
},
{
    "Sid": "Allow Persistent APP UI to Write/Read Logs",
    "Effect": "Allow",
    "Principal":{
        "Service": [
            "persistentappui.elasticmapreduce.amazonaws.com",
            "elasticmapreduce.amazonaws.com"
        ]
     },
     "Action": [
       "kms:Decrypt",
       "kms:GenerateDataKey"
     ],
     "Resource": "*",
     "Condition": {
        "StringLike": {
            "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*",
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*",
            "kms:ViaService": "s3.region.amazonaws.com"
        }
     }
}

Como práticas recomendadas de segurança, recomendamos que você adicione as condições kms:EncryptionContext e aws:SourceArn. Essas condições ajudam a garantir que a chave seja usada somente pelo Amazon EMR no EC2 e usada exclusivamente para logs gerados a partir de trabalhos executados em um cluster específico.

Para obter mais informações, consulte Funções de serviço do IAM usadas pelo Amazon EMR e Como usar políticas de chaves no guia do desenvolvedor do AWS Key Management Service.

Para agregar registros no Amazon S3 usando o AWS CLI

nota

Atualmente não é possível usar a agregação de logs com o utilitário yarn logs. Você só pode usar a agregação compatível com esse procedimento.

A agregação de logs (Hadoop 2.x) compila os logs de todos os contêineres de um aplicativo individual em um único arquivo. Para habilitar a agregação de logs para o Amazon S3 usando AWS CLI o, você usa uma ação de bootstrap na inicialização do cluster para habilitar a agregação de logs e especificar o bucket para armazenar os logs.

Para habilitar a agregação de logs, crie o arquivo de configuração chamado myConfig.json, que contém o seguinte:
```
[
  {
    "Classification": "yarn-site",
    "Properties": {
      "yarn.log-aggregation-enable": "true",
      "yarn.log-aggregation.retain-seconds": "-1",
      "yarn.nodemanager.remote-app-log-dir": "s3:\/\/DOC-EXAMPLE-BUCKET\/logs"
    }
  }
]
```
Digite o seguinte comando, substituindo myKey pelo nome do par de chaves do EC2. Além disso, você pode substituir os textos em vermelho por suas próprias configurações.
```
aws emr create-cluster --name "Test cluster" \
--release-label emr-7.13.0 \
--applications Name=Hadoop \
--use-default-roles \
--ec2-attributes KeyName=myKey \
--instance-type m5.xlarge \
--instance-count 3 \
--configurations file://./myConfig.json
```
Quando você especifica a contagem de instâncias sem usar o parâmetro --instance-groups, um único nó primário é executado, e as instâncias restantes são executadas como nós centrais. Todos os nós usarão o tipo de instância especificado no comando.

nota
Se você não tiver criado o perfil de serviço padrão do EMR e o perfil de instância do EC2, execute aws emr create-default-roles para criá-los antes de executar o subcomando create-cluster.

Para obter mais informações sobre o uso dos comandos do Amazon EMR no AWS CLI, consulte Referência de AWS CLI comandos.

Ferramentas de autodiagnóstico e solução de problemas do Amazon EMR

Esse runbook ajuda a identificar erros ao executar um trabalho em um cluster do Amazon EMR. O runbook analisa uma lista de logs definidos no sistema de arquivos e procura uma lista de palavras-chave predefinidas. Essas entradas de registro são usadas para criar CloudWatch eventos da Amazon Events para que você possa realizar as ações necessárias com base nos eventos. Opcionalmente, o runbook publica entradas de registro no grupo de CloudWatch registros Amazon Logs de sua escolha. AWSSupport-AnalyzeEMRLogs.

Esse runbook ajuda a diagnosticar os registros do Amazon EMR no S3 usando o Amazon Athena em integração com o Glue Data Catalog. AWS O Amazon Athena é usado para consultar os arquivos de log do Amazon EMR para contêineres, logs de nós ou ambos, com parâmetros opcionais para intervalos de datas específicos ou pesquisas baseadas em palavras-chave. Esse runbook fornece uma lista de todos os erros e exceções frequentes encontrados nos logs do cluster do Amazon EMR, junto com os locais de logs do S3 correspondentes. Ele também fornece um resumo das exceções exclusivas conhecidas que correspondem aos registros do Amazon EMR, junto com as resoluções recomendadas e os artigos do Knowledge Center/re:POST para ajudar na solução de problemas. AWSSupport-DiagnoseEMRLogsWithAthena

Locais de log

A lista a seguir inclui todos os tipos de log e seus locais no Amazon S3. Use-os para solucionar problemas do Amazon EMR.

Logs de etapa

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/steps/<step-id>/

Logs de aplicações

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/containers/

Esse local inclui contêiner stderr e stdout, directory.info, prelaunch.out e logs launch_container.sh.

Logs do gerenciador de recursos

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hadoop-yarn/

HDFS do Hadoop

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-hdfs/

Esse local inclui NameNode, DataNode, e TimelineServer registros do YARN.

Logs do gerenciador de nós

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-yarn/

Instance-state troncos

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/daemons/instance-state/

Logs de provisionamento do Amazon EMR

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/provision-node/*

Logs do Hive

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hive/*

Para encontrar logs do Hive no cluster, remova o asterisco (*) e anexe /var/log/hive/ ao link acima.
Para encontrar HiveServer 2 registros, remova o asterisco (*) e anexe var/log/hive/hiveserver2.log ao link acima.
Para encontrar logs do HiveCLI, remova o asterisco (*) e anexe /var/log/hive/user/hadoop/hive.log ao link acima.
Para encontrar os logs do Hive Metastore Server, remova o asterisco (*) e anexe /var/log/hive/user/hive/hive.log ao link acima.

Se sua falha estiver no nó primário ou no nó de tarefa da aplicação Tez, forneça logs do contêiner Hadoop apropriado.

Controle o comportamento de registro do S3 (Amazon EMR 7.13.0 e versões posteriores)

A partir do Amazon EMR 7.13.0, você pode controlar o comportamento de upload por meio do recurso. S3LoggingConfiguration Isso permite que você especifique diferentes políticas de upload para diferentes tipos de registro: registros do sistema, registros do aplicativo e registros persistentes da interface do usuário.

Políticas de upload

Para cada tipo de registro, você pode especificar uma das seguintes políticas de upload. Os tipos de log não especificados usarão como padrão o comportamento padrão (gerenciado pelo emr):

emr-managed (padrão): Comportamento padrão. Os registros são enviados para o Amazon S3 conforme configurado no seuLogUri, com certos registros retidos pelo serviço para fins de suporte operacional e solução de problemas.
somente no cliente s3: Customer-managed somente armazenamento. Os registros são enviados somente para o bucket S3 especificado pelo cliente. Isso exige que você especifique um LogUri ao criar o cluster. Persistent-ui-logs não pode ter uma política exclusiva para o cliente. As políticas permitidas para persistent-ui-logs são gerenciadas e desativadas pelo EMR.
desabilitado: Nenhum upload do S3 para esse tipo de log.

Exemplos de configuração

Você pode configurar o registro do S3 ao criar um novo cluster do Amazon EMR por meio AWS CLI do, AWS ou SDKs. A configuração é especificada por meio do MonitoringConfiguration parâmetro.

Exemplo: comportamento padrão

Se você não especificar S3LoggingConfiguration, todos os tipos de log usam como padrão o comportamento gerenciado pelo emr:


aws emr create-cluster \
--name "MyCluster" \
--release-label emr-7.13.0 \
--instance-type m5.xlarge \
--instance-count 3 \
--log-uri s3://my-bucket/logs/ \
--use-default-roles

Exemplo: configuração de registro personalizada do S3

Este exemplo mostra como configurar políticas de upload diferentes para cada tipo de registro:


aws emr create-cluster \
--name "MyCluster" \
--release-label emr-7.13.0 \
--instance-type m5.xlarge \
--instance-count 3 \
--log-uri s3://my-bucket/logs/ \
--use-default-roles \
--monitoring-configuration '{
    "S3LoggingConfiguration": {
        "LogTypeUploadPolicy": {
            "application-logs": "on-customer-s3only",
            "system-logs": "emr-managed"
        }
    }
}'

Essa configuração carrega os registros do aplicativo somente para o bucket S3 do cliente e define a política gerenciada pelo EMR para os registros do sistema. O tipo de registro não especificado (registros persistentes da interface do usuário) segue o comportamento padrão (gerenciado pelo emr).

Considerações

A configuração de registro do S3 só pode ser definida no momento da criação do cluster e não pode ser modificada para executar clusters.
Persistent-ui-logs não pode ter uma política exclusiva para o cliente. As políticas permitidas para persistent-ui-logs são gerenciadas e desativadas pelo EMR.
LogUri Requisito: ao usar a política on-customer-s3only para logs do sistema ou logs do aplicativo, você deve especificar um parâmetro. LogUri Sem isso LogUri, a criação do cluster falhará.
Comportamento padrão: se não S3LoggingConfiguration for especificado, todos os tipos de log assumem como padrão o comportamento gerenciado pelo emr.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Diretrizes e práticas recomendadas

Marcação e categorização dos recursos de cluster do Amazon EMR