Abilitazione dell'interfaccia utente Web di Apache Spark per processi AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Abilitazione dell'interfaccia utente Web di Apache Spark per processi AWS Glue

Puoi utilizzare l'interfaccia utente Web di Apache Spark per monitorare ed eseguire il debug dei processi ETL AWS Glue in esecuzione sul sistema di processi AWS Glue. Puoi configurare l'interfaccia utente di Spark tramite la console AWS Glue o AWS Command Line Interface (AWS CLI).

Ogni 30 secondi, AWS Glue esegue il backup dei log degli eventi Spark nel percorso Amazon S3 specificato.

Configurazione dell'interfaccia utente di Spark (console)

Segui queste fasi per configurare l'interfaccia utente di Spark mediante la AWS Management Console. Quando si crea un AWS Glue lavoro, l'interfaccia utente di Spark è abilitata per impostazione predefinita.

Per attivare l'interfaccia utente di Spark durante la creazione o la modifica di un processo
  1. Accedi AWS Management Console e apri la AWS Glue console all'indirizzo https://console.aws.amazon.com/glue/.

  2. Nel riquadro di navigazione scegliere Jobs (Processi).

  3. Scegli Aggiungi processo o selezionane uno esistente.

  4. In Dettagli processo, apri le Proprietà avanzate.

  5. Nella scheda Interfaccia utente Spark, scegli Scrivi i log dell'interfaccia utente di Spark su Amazon S3.

  6. Specifica un percorso Amazon S3 per archiviare i log di eventi Spark per il processo. Tieni presente che, se utilizzi una configurazione di sicurezza nel processo, la crittografia verrà applicata anche al file di log dell'interfaccia utente di Spark. Per ulteriori informazioni, consulta Crittografia dei dati scritti da AWS Glue.

  7. Nella sezione Configurazione della registrazione e del monitoraggio dell'interfaccia utente di Spark:

    • Seleziona Standard se stai generando log da visualizzare nella AWS Glue console.

    • Seleziona Legacy se stai generando i log da visualizzare su un server della cronologia di Spark.

    • Puoi anche decidere di generarli entrambi.

Configurazione dell'interfaccia utente di Spark (AWS CLI)

Per generare log da visualizzare con l'interfaccia utente Spark, nella AWS Glue console, usa AWS CLI per passare i seguenti parametri di lavoro ai AWS Glue job. Per ulteriori informazioni, consulta Utilizzo dei parametri del lavoro nei lavori AWS Glue.

'--enable-spark-ui': 'true', '--spark-event-logs-path': 's3://s3-event-log-path'

Per distribuire i log nelle rispettive posizioni precedenti, imposta il parametro --enable-spark-ui-legacy-path su "true". Se non desideri generare log in entrambi i formati, rimuovi il parametro --enable-spark-ui.

Configurazione dell'interfaccia utente di Spark per sessioni che utilizzano notebook

avvertimento

AWS Glue le sessioni interattive attualmente non supportano l'interfaccia utente Spark nella console. Configura un server della cronologia di Spark.

Se usi AWS Glue notebook, configura la configurazione di SparkUI prima di iniziare la sessione. A tale scopo, utilizza il magic per celle %%configure:

%%configure { “--enable-spark-ui”: “true”, “--spark-event-logs-path”: “s3://path” }

Abilita i log scorrevoli

L'abilitazione dei file di eventi SparkUI e rolllog per i AWS Glue lavori offre diversi vantaggi:

  • Rolling Log Event Files: con i file di eventi Rolling Log abilitati, AWS Glue genera file di log separati per ogni fase dell'esecuzione del lavoro, semplificando l'identificazione e la risoluzione dei problemi specifici di una particolare fase o trasformazione.

  • Migliore gestione dei log: i file di eventi Rolling Log aiutano a gestire i file di registro in modo più efficiente. Invece di avere un unico file di registro potenzialmente di grandi dimensioni, i log vengono suddivisi in file più piccoli e più gestibili in base alle fasi di esecuzione del lavoro. Questo può semplificare l'archiviazione, l'analisi e la risoluzione dei problemi dei log.

  • Migliore tolleranza agli errori: se un AWS Glue lavoro fallisce o viene interrotto, i file degli eventi del rolling log possono fornire informazioni preziose sull'ultima fase riuscita, facilitando la ripresa del lavoro da quel punto piuttosto che ricominciare da zero.

  • Ottimizzazione dei costi: abilitando i file di evento rolllog, è possibile risparmiare sui costi di archiviazione associati ai file di registro. Invece di archiviare un singolo file di registro potenzialmente di grandi dimensioni, vengono archiviati file di registro più piccoli e più gestibili, il che può essere più conveniente, soprattutto per lavori complessi o di lunga durata.

In un nuovo ambiente, gli utenti possono abilitare esplicitamente i log in sequenza tramite:

'—conf': 'spark.eventLog.rolling.enabled=true'

oppure

'—conf': 'spark.eventLog.rolling.enabled=true —conf spark.eventLog.rolling.maxFileSize=128m'

Quando i rolling log sono attivati, spark.eventLog.rolling.maxFileSize specifica la dimensione massima del file di registro degli eventi prima che venga ripristinato. Il valore predefinito di questo parametro opzionale, se non specificato, è 128 MB. Il minimo è 10 MB.

La somma massima di tutti i file di eventi roll-log generati è di 2 GB. Per i AWS Glue lavori senza supporto per il rolllog, la dimensione massima del file degli eventi di registro supportata per SparkUI è 0,5 GB.

Puoi disattivare i log in sequenza per un processo di streaming inserendo una configurazione aggiuntiva. Tieni presente che la manutenzione di file di log molto grandi può essere costosa.

Per disattivare i log in sequenza, fornisci la seguente configurazione:

'--spark-ui-event-logs-path': 'true', '--conf': 'spark.eventLog.rolling.enabled=false'