File di log di default Archiviazione di file di log in Amazon S3 Posizione dei log Controlla il comportamento di registrazione di S3 (Amazon EMR 7.13.0 e versioni successive)

Configurazione del logging e del debug dei cluster Amazon EMR

Quando pianifichi il cluster, devi determinare la quantità di supporto di debug che vuoi rendere disponibile. Durante lo sviluppo iniziale dell'applicazione di elaborazione dati, ti consigliamo di testare l'applicazione su un cluster che elabora un piccolo, ma rappresentativo, sottoinsieme dei tuoi dati. È probabile che per eseguire questa operazione tu intenda utilizzare tutti gli strumenti di debug forniti da Amazon EMR, come l'archiviazione dei file di log in Amazon S3.

Una volta terminata la fase di sviluppo dell'applicazione di elaborazione dati e avviata quella di produzione, puoi scegliere di ridurre il debug. In questo modo, azzeri il costo relativo all'archiviazione degli archivi di file di log in Amazon S3 e riduci il carico di elaborazione sul cluster in quanto non è più necessario scrivere lo stato su Amazon S3. L'inconveniente di questa scelta è che in caso di problemi avrai a disposizione un minor numero di strumenti per gestirli.

File di log di default

Per impostazione predefinita, ogni cluster scrive file di log su tutti i nodi. Questi file sono scritti nella directory /mnt/var/log/. È possibile accedervi utilizzando SSH per connettersi a qualsiasi nodo, come descritto inConnect al nodo primario del cluster Amazon EMR tramite SSH. Amazon EMR raccoglie determinati log di sistema e applicazioni generati dai daemon Amazon EMR e da altri processi Amazon EMR per garantire operazioni di servizio efficaci.

Nota

Se utilizzi Amazon EMR versione 6.8.0 o precedente, i file di log non vengono salvati su Amazon S3 durante la chiusura del cluster, quindi non puoi accedere ai file di log una volta terminati i nodi. Amazon EMR versione 6.9.0 e successive archiviano i log in Amazon S3 durante la riduzione del cluster, cosicché i file di log generati sul cluster persistono anche dopo la terminazione del nodo.

Non è necessario abilitare nulla per avere file di log scritti su tutti i nodi. In effetti, questo è il comportamento predefinito di Amazon EMR e Hadoop.

Amazon EMR acquisisce tre categorie di log per la registrazione S3:

Registri di sistema: registri del demone EMR
Log delle applicazioni: registri del framework da Hadoop, Spark, Hive e altre applicazioni in esecuzione sul cluster
Registri dell'interfaccia utente persistenti: registri necessari per le interfacce utente persistenti delle applicazioni come Spark History Server e Tez UI

Nel file system locale, un cluster genera diversi tipi di file di registro, tra cui: /mnt/var/log

Step logs (Log di fase): questi log sono generati dal servizio Amazon EMR e contengono informazioni sul cluster e i risultati di ogni fase. I file di log sono archiviati nella directory /mnt/var/log/hadoop/steps/ nel nodo primario. Ogni fase registra i risultati a essa relativi in una sottodirectory numerata distinta: /mnt/var/log/hadoop/steps/s-stepId1/ per la prima fase, /mnt/var/log/hadoop/steps/s-stepId2/, per la seconda e così via. Gli identificatori di fase a 13 caratteri (ad esempio stepId1, stepId2) sono esclusivi di un cluster.
Registri dei componenti Hadoop e YARN: i log dei componenti associati sia ad Apache YARN che, ad esempio MapReduce, sono contenuti in cartelle separate su tutti i nodi. /mnt/var/log Le posizioni dei file di log per i componenti Hadoop in /mnt/var/log sono le seguenti: hadoop-hdfs, hadoop-mapreduce, hadoop-httpfs e hadoop-yarn. La directory hadoop-state-pusher è per l'output del processo pusher dello stato di Hadoop.
Bootstrap action logs (Log delle operazioni di bootstrap): se il processo utilizza operazioni di bootstrap, i risultati di queste operazioni sono registrati. I file di registro sono memorizzati in/-actions/ su tutti i nodi. mnt/var log/bootstrap Ogni operazione di bootstrap registra i risultati a essa relativi in una sottodirectory numerata distinta: /mnt/var/log/bootstrap-actions/1/ per la prima operazione di bootstrap, /mnt/var/log/bootstrap-actions/2/ per la seconda e così via.
Instance state logs (Log di stato dell'istanza): forniscono informazioni su CPU, stato della memoria e thread del garbage collector del nodo. I file di registro sono archiviati /mnt/var/log/instance-state/ su tutti i nodi.

Archiviazione di file di log in Amazon S3

Nota

Non è al momento possibile utilizzare l'aggregazione dei log in Amazon S3 con l'utility yarn logs.

Amazon EMR rilascio 6.9.0 e successivi archiviano i log in Amazon S3 durante la riduzione del cluster, cosicché i file di log generati sul cluster persistono anche dopo la terminazione del nodo. Questo comportamento è abilitato automaticamente, quindi non devi fare nulla per attivarlo. Per le versioni 6.8.0 e precedenti di Amazon EMR, puoi configurare un cluster per archiviare periodicamente i file di log archiviati su tutti i nodi su Amazon S3. In questo modo, i file di log saranno disponibili anche dopo la terminazione del cluster, indipendentemente dalla causa della stessa (arresto normale, errore, ecc.). Amazon EMR archivia i file di log in Amazon S3 ogni 5 minuti.

Per Amazon EMR rilascio 6.8.0 e successivi, per archiviare i file di log in Amazon S3 devi abilitare tale caratteristica all'avvio del cluster. Puoi eseguire tale operazione mediante la console, la CLI o l'API. Per impostazione predefinita, l'archiviazione dei log è abilitata per i cluster avviati utilizzando la console. Per i cluster avviati mediante la CLI o l'API, la registrazione in Amazon S3 deve essere abilitata manualmente.

Console

Archiviazione dei file di log in Amazon S3 con la nuova console

Accedi a e apri AWS Management Console la console Amazon EMR all'indirizzo. https://console.aws.amazon.com/emr
In EMR on EC2 (EMR su EC2), nel riquadro di navigazione a sinistra, scegli Clusters (Cluster) e seleziona Create cluster (Crea cluster).
In Cluster logs (Log del cluster), seleziona la casella di controllo Publish cluster-specific logs to Amazon S3 (Pubblica log specifici del cluster su Amazon S3).
Nel campo Amazon S3 location (Posizione Amazon S3), digita o cerca il percorso Amazon S3 in cui archiviare i log. Se digiti il nome di una cartella che non esiste nel bucket, Amazon S3 crea tale cartella.

Quando imposti questo valore, Amazon EMR copia i file di log dalle istanze EC2 nel cluster in Amazon S3. Questa operazione evita che i file di log vadano persi quando il cluster termina ed EC2 termina le istanze EC2 che ospitano il cluster. Questi log sono utili per la risoluzione dei problemi. Per ulteriori informazioni, consulta Visualizzazione dei file di log.
Facoltativamente, seleziona la casella di controllo Encrypt cluster-specific logs (Crittografa log specifici del cluster). Quindi, seleziona una AWS KMS chiave dall'elenco, inserisci un ARN della chiave o crea una nuova chiave. Questa opzione è disponibile solo con Amazon EMR versione 5.30.0 e successive, esclusa la versione 6.0.0. Per utilizzare questa opzione, aggiungi l'autorizzazione AWS KMS per il tuo profilo di istanza EC2 e il ruolo Amazon EMR. Per ulteriori informazioni, consulta Per crittografare i file di registro archiviati in Amazon S3 con un AWS Chiave gestita dal cliente KMS.
Scegli qualsiasi altra opzione applicabile al cluster.
Per avviare il cluster, scegli Create cluster (Crea cluster).

CLI

Per archiviare i file di registro su Amazon S3 con AWS CLI

Per archiviare i file di log su Amazon S3 utilizzando AWS CLI, digita il create-cluster comando e specifica il percorso di log di Amazon S3 utilizzando il parametro. --log-uri

Per registrare i file su Amazon S3, digita il seguente comando e sostituiscilo myKey con il nome della tua coppia di chiavi EC2.


aws emr create-cluster --name "Test cluster" --release-label emr-7.13.0 --log-uri s3://DOC-EXAMPLE-BUCKET/logs --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey --instance-type m5.xlarge --instance-count 3

Quando si specifica il numero di istanze senza utilizzare il parametro --instance-groups, viene avviato un singolo nodo primario e le istanze rimanenti vengono avviate come nodi core. Tutti i nodi utilizzeranno il tipo di istanza specificato nel comando.

Nota
Se in precedenza non sono stati creati il ruolo di servizio Amazon EMR predefinito e il profilo dell'istanza EC2, inserisci aws emr create-default-roles per crearli prima di digitare il sottocomando create-cluster.

Per crittografare i file di registro archiviati in Amazon S3 con un AWS Chiave gestita dal cliente KMS

Con Amazon EMR versione 5.30.0 e successive (eccetto Amazon EMR 6.0.0), puoi crittografare i file di log archiviati in Amazon S3 con una chiave gestita dal cliente KMS. AWS Per abilitare questa opzione nella console, segui le fasi in Archiviazione di file di log in Amazon S3. Il profilo dell'istanza Amazon EC2 e il ruolo Amazon EMR devono soddisfare i seguenti prerequisiti:

Il profilo dell'istanza Amazon EC2 utilizzato per il cluster deve disporre dell'autorizzazione per utilizzare kms:GenerateDataKey.
Il ruolo Amazon EMR utilizzato per il cluster deve disporre dell'autorizzazione per utilizzare kms:DescribeKey.
Il profilo dell'istanza Amazon EC2 e il ruolo Amazon EMR devono essere aggiunti all'elenco degli utenti chiave per la chiave gestita dal cliente AWS KMS specificata, come dimostrano i seguenti passaggi:
1. Apri la console AWS Key Management Service (AWS KMS) all'indirizzo. https://console.aws.amazon.com/kms
2. Per cambiare la AWS regione, usa il selettore della regione nell'angolo superiore destro della pagina.
3. Seleziona l'alias della chiave KMS da modificare.
4. Nella pagina dei dettagli della chiave, in Key Users (Utenti di chiavi), scegli Add (Aggiungi).
5. Nella finestra di dialogo Add key users (Aggiungi utenti delle chiavi), seleziona il profilo dell'istanza Amazon EC2 e il ruolo Amazon EMR.
6. Scegliere Aggiungi.

È inoltre necessario configurare la chiave KMS per consentire a persistentappui.elasticmapreduce.amazonaws.com and elasticmapreduce.amazonaws.com Service Principal di, e. kms:GenerateDataKey kms:GenerateDataKeyWithoutPlaintext kms:Decrypt Ciò consente a EMR di leggere e scrivere registri crittografati con la chiave KMS per lo storage gestito. L'utente IAM Role deve disporre dell'autorizzazione per utilizzare e. kms:GenerateDataKey kms:Decrypt


{
   "Sid": "Allow User Role to use KMS key",
   "Effect": "Allow",
   "Principal": {
        "AWS": "User Role"
    },
    "Action": [
        "kms:Decrypt", 
        "kms:GenerateDataKey"
   ],
    "Resource": "*",
    "Condition": {
        "StringLike": {
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*",
           "kms:ViaService": "elasticmapreduce.region.amazonaws.com"
       }
    }
},
{
    "Sid": "Allow Persistent APP UI to validate KMS key for write",
    "Effect": "Allow",
    "Principal":{
        "Service": [
            "elasticmapreduce.amazonaws.com"
        ]
     },
     "Action": [
       "kms:GenerateDataKeyWithoutPlaintext"
      ],
     "Resource": "*",
     "Condition": {
        "StringLike": {
            "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*",
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*"
        }
     }
},
{
    "Sid": "Allow Persistent APP UI to Write/Read Logs",
    "Effect": "Allow",
    "Principal":{
        "Service": [
            "persistentappui.elasticmapreduce.amazonaws.com",
            "elasticmapreduce.amazonaws.com"
        ]
     },
     "Action": [
       "kms:Decrypt",
       "kms:GenerateDataKey"
     ],
     "Resource": "*",
     "Condition": {
        "StringLike": {
            "aws:SourceArn": "arn:aws:elasticmapreduce:region:account:cluster/j-*",
            "kms:EncryptionContext:aws:elasticmapreduce:clusterId": "j-*",
            "kms:ViaService": "s3.region.amazonaws.com"
        }
     }
}

Come best practice di sicurezza, ti consigliamo di aggiungere le aws:SourceArn condizioni kms:EncryptionContext and. Queste condizioni aiutano a garantire che la chiave venga utilizzata solo da Amazon EMR su EC2 e utilizzata solo per i log generati dai lavori in esecuzione in un cluster specifico.

Per ulteriori informazioni, consulta i ruoli del servizio IAM utilizzati da Amazon EMR e Utilizzo delle politiche chiave nella guida per sviluppatori di AWS Key Management Service.

Per aggregare i log in Amazon S3 utilizzando AWS CLI

Nota

Non è al momento possibile utilizzare l'aggregazione dei log con l'utility yarn logs. È possibile utilizzare soltanto l'aggregazione supportata da questa procedura.

L'aggregazione di log (Hadoop 2.x) compila i log di tutti i container di una singola applicazione in un unico file. Per abilitare l'aggregazione dei log su Amazon S3 utilizzando AWS CLI il, si utilizza un'azione bootstrap all'avvio del cluster per abilitare l'aggregazione dei log e specificare il bucket in cui archiviare i log.

Per abilitare l'aggregazione di log, crea il file di configurazione denominato myConfig.json, che contiene quanto segue:
```
[
  {
    "Classification": "yarn-site",
    "Properties": {
      "yarn.log-aggregation-enable": "true",
      "yarn.log-aggregation.retain-seconds": "-1",
      "yarn.nodemanager.remote-app-log-dir": "s3:\/\/DOC-EXAMPLE-BUCKET\/logs"
    }
  }
]
```
Digita il comando seguente e sostituisci myKey con il nome della coppia di chiavi EC2. Puoi inoltre sostituire il testo in rosso con le configurazioni desiderate.
```
aws emr create-cluster --name "Test cluster" \
--release-label emr-7.13.0 \
--applications Name=Hadoop \
--use-default-roles \
--ec2-attributes KeyName=myKey \
--instance-type m5.xlarge \
--instance-count 3 \
--configurations file://./myConfig.json
```
Quando si specifica il numero di istanze senza utilizzare il parametro --instance-groups, viene avviato un singolo nodo primario e le istanze rimanenti vengono avviate come nodi core. Tutti i nodi utilizzeranno il tipo di istanza specificato nel comando.

Nota
Se in precedenza non sono stati creati il ruolo di servizio EMR predefinito e il profilo dell'istanza EC2, esegui aws emr create-default-roles per crearli prima di eseguire il sottocomando create-cluster.

Per ulteriori informazioni sull'utilizzo dei comandi Amazon EMR in AWS CLI, consulta AWS CLI Command Reference.

Strumenti di autodiagnostica e risoluzione dei problemi di Amazon EMR

Questo runbook aiuta a identificare gli errori durante l'esecuzione di un job su un cluster Amazon EMR. Il runbook analizza un elenco di log definiti sul file system e cerca un elenco di parole chiave predefinite. Queste voci di registro vengono utilizzate per creare CloudWatch eventi Amazon Events in modo da poter intraprendere tutte le azioni necessarie in base agli eventi. Facoltativamente, il runbook pubblica le voci di registro nel gruppo di log Amazon CloudWatch Logs di tua scelta. AWSSupport-AnalyzeEMRLogs.

Questo runbook aiuta a diagnosticare i log di Amazon EMR su S3 utilizzando Amazon Athena in integrazione con Glue Data Catalog. AWS Amazon Athena viene utilizzato per interrogare i file di log di Amazon EMR per contenitori, log dei nodi o entrambi, con parametri opzionali per intervalli di date specifici o ricerche basate su parole chiave. Questo runbook fornisce un elenco di tutti gli errori e le eccezioni ricorrenti presenti nei log del cluster Amazon EMR, insieme alle posizioni dei log S3 corrispondenti. Fornisce inoltre un riepilogo delle eccezioni note uniche riportate nei log di Amazon EMR, insieme alle risoluzioni consigliate e agli articoli del Knowledge Center/re:post per facilitare la risoluzione dei problemi. AWSSupport-DiagnoseEMRLogsWithAthena

Posizione dei log

L'elenco seguente include tutti i tipi di log e le relative posizioni in Amazon S3. Puoi utilizzarli per risolvere i problemi di Amazon EMR.

Log delle fasi

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/steps/<step-id>/

Log di applicazioni

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/containers/

Questa posizione include i log del container stderr e stdout, directory.info, prelaunch.out e launch_container.sh.

Log del gestore delle risorse

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hadoop-yarn/

Hadoop HDFS

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-hdfs/

Questa posizione include, e i log YARN. NameNode DataNode TimelineServer

Log del gestore dei nodi

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/applications/hadoop-yarn/

Instance-state registri

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<all-instance-id>/daemons/instance-state/

Log di provisioning di Amazon EMR

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/provision-node/*

Log Hive

s3://DOC-EXAMPLE-LOG-BUCKET/<cluster-id>/node/<leader-instance-id>/applications/hive/*

Per trovare i log di Hive sul tuo cluster, rimuovi l'asterisco (*) e aggiungi /var/log/hive/ al link precedente.
Per trovare HiveServer 2 log, rimuovi l'asterisco (*) e aggiungilo var/log/hive/hiveserver2.log al link precedente.
Per trovare i log HiveCLI, rimuovi l'asterisco (*) e aggiungi /var/log/hive/user/hadoop/hive.log al link precedente.
Per trovare i log di Hive Metastore Server, rimuovi l'asterisco (*) e aggiungi /var/log/hive/user/hive/hive.log al link precedente.

Se l'errore si trova nel nodo primario o nel nodo attività dell'applicazione Tez, fornisci i log del container Hadoop appropriato.

Controlla il comportamento di registrazione di S3 (Amazon EMR 7.13.0 e versioni successive)

A partire da Amazon EMR 7.13.0, puoi controllare il comportamento di caricamento tramite questa funzionalità. S3LoggingConfiguration Ciò consente di specificare diverse politiche di caricamento per diversi tipi di log: log di sistema, log delle applicazioni e log persistenti dell'interfaccia utente.

Politiche di caricamento

Per ogni tipo di registro, puoi specificare una delle seguenti politiche di caricamento. I tipi di log non specificati utilizzeranno per impostazione predefinita il comportamento standard (emr-managed):

emr-managed (impostazione predefinita): Comportamento standard. I log vengono caricati su Amazon S3 come configurato nel LogUri tuo account, mentre alcuni log vengono conservati dal servizio per scopi di supporto operativo e risoluzione dei problemi.
solo su customer-s3: Customer-managed solo archiviazione. I log vengono caricati solo nel bucket S3 specificato dal cliente. Ciò richiede di specificare a durante la creazione del cluster. LogUri Persistent-ui-logs non può avere una politica on-customer-s3only. Le politiche consentite per persistent-ui-logs sono gestite e disabilitate da emr.
disabled: Nessun caricamento S3 per questo tipo di registro.

Esempi di configurazione

Puoi configurare la registrazione di S3 quando crei un nuovo cluster Amazon EMR tramite o SDK. AWS CLI AWS La configurazione viene specificata tramite il parametro. MonitoringConfiguration

Esempio: comportamento predefinito

Se non lo specifichi S3LoggingConfiguration, per impostazione predefinita tutti i tipi di log utilizzano il comportamento gestito da emr:


aws emr create-cluster \
--name "MyCluster" \
--release-label emr-7.13.0 \
--instance-type m5.xlarge \
--instance-count 3 \
--log-uri s3://my-bucket/logs/ \
--use-default-roles

Esempio: configurazione di registrazione S3 personalizzata

Questo esempio mostra come configurare diverse politiche di caricamento per ogni tipo di registro:


aws emr create-cluster \
--name "MyCluster" \
--release-label emr-7.13.0 \
--instance-type m5.xlarge \
--instance-count 3 \
--log-uri s3://my-bucket/logs/ \
--use-default-roles \
--monitoring-configuration '{
    "S3LoggingConfiguration": {
        "LogTypeUploadPolicy": {
            "application-logs": "on-customer-s3only",
            "system-logs": "emr-managed"
        }
    }
}'

Questa configurazione carica i log delle applicazioni solo nel bucket S3 del cliente e imposta una politica gestita da emr per i log di sistema. Il tipo di registro non specificato (registri dell'interfaccia utente persistenti) segue il comportamento predefinito (gestito da emr).

Considerazioni

La configurazione di registrazione di S3 può essere impostata solo al momento della creazione del cluster e non può essere modificata per i cluster in esecuzione.
Persistent-ui-logs non può avere una policy on-customer-s3only. Le politiche consentite per persistent-ui-logs sono gestite e disabilitate da emr.
LogUri Requisito: quando si utilizza la politica on-customer-s3only per i registri di sistema o i registri delle applicazioni, è necessario specificare un parametro. LogUri In LogUri caso contrario, la creazione del cluster avrà esito negativo.
Comportamento predefinito: se non S3LoggingConfiguration è specificato, tutti i tipi di log utilizzano per impostazione predefinita il comportamento gestito da emr.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Linee guida e best practice

Etichetta e classifica le risorse del cluster Amazon EMR