Risoluzione dei problemi di intelligenza artificiale generativa per Apache Spark in Glue AWS - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi di intelligenza artificiale generativa per Apache Spark in Glue AWS

La risoluzione dei problemi di intelligenza artificiale generativa per l'anteprima di Apache Spark è disponibile per i lavori in esecuzione su AWS Glue 4.0 e AWS nelle seguenti regioni: Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Stati Uniti occidentali (California settentrionale), Europa (Irlanda), Europa (Stoccolma), Asia Pacifico (Tokyo), Asia Pacifico (Mumbai) e Asia Pacifico (Sydney). Le funzionalità di anteprima sono soggette a modifiche.

La risoluzione dei problemi di intelligenza artificiale generativa per i lavori di Apache Spark in AWS Glue è una nuova funzionalità che aiuta i data engineer e gli scienziati a diagnosticare e risolvere i problemi nelle loro applicazioni Spark con facilità. Utilizzando tecnologie di machine learning e intelligenza artificiale generativa, questa funzionalità analizza i problemi nei job Spark e fornisce un'analisi dettagliata delle cause principali insieme a consigli pratici per risolverli.

Come funziona la risoluzione dei problemi di intelligenza artificiale generativa per Apache Spark?

Per i job Spark non riusciti, Generative AI Troubleshooting analizza i metadati del lavoro e le metriche e i log precisi associati alla firma di errore del job per generare un'analisi della causa principale e consiglia soluzioni e best practice specifiche per aiutare a risolvere i problemi del lavoro.

Configurazione della risoluzione dei problemi di intelligenza artificiale generativa per Apache Spark per i tuoi lavori

Nota

Durante l'anteprima, questa funzione aiuta a risolvere i lavori di AWS Glue 4.0 che falliscono entro i primi 30 minuti dal loro tempo di esecuzione.

Configurazione delle autorizzazioni IAM

La concessione delle autorizzazioni ai file APIs utilizzati da Spark Troubleshooting per i tuoi lavori in AWS Glue richiede le autorizzazioni IAM appropriate. Puoi ottenere le autorizzazioni allegando la seguente AWS policy personalizzata alla tua identità IAM (ad esempio un utente, un ruolo o un gruppo).

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
Nota

Durante l'anteprima, Spark Troubleshooting non è APIs disponibile tramite l' AWS SDK che puoi utilizzare a livello di programmazione. I due seguenti APIs vengono utilizzati nella policy IAM per abilitare questa esperienza tramite la console AWS Glue Studio: StartCompletion eGetCompletion.

Assegnare le autorizzazioni

Per fornire l'accesso, aggiungi autorizzazioni agli utenti, gruppi o ruoli:

Esecuzione dell'analisi della risoluzione dei problemi a seguito di un'esecuzione non riuscita di

È possibile accedere alla funzionalità di risoluzione dei problemi tramite più percorsi nella console AWS Glue. Ecco come iniziare:

Opzione 1: dalla pagina Elenco dei lavori

  1. Apri la console AWS Glue all'indirizzo https://console.aws.amazon.com/glue/.

  2. Nel riquadro di navigazione, scegli ETL Jobs.

  3. Individua il lavoro non riuscito nell'elenco dei lavori.

  4. Seleziona la scheda Esecuzioni nella sezione dei dettagli del lavoro.

  5. Fate clic sull'esecuzione del job non riuscita che desiderate analizzare.

  6. Scegli Risoluzione dei problemi con AI per avviare l'analisi.

  7. Una volta completata l'analisi della risoluzione dei problemi, puoi visualizzare l'analisi della causa principale e i consigli nella scheda Analisi della risoluzione dei problemi nella parte inferiore dello schermo.

La GIF mostra l'implementazione completa di un'esecuzione non riuscita e la risoluzione dei problemi con la funzionalità AI in esecuzione.

Opzione 2: utilizzo della pagina Job Run Monitoring

  1. Vai alla pagina Job run monitoring.

  2. Individua l'esecuzione del job non riuscita.

  3. Scegli il menu a discesa Azioni.

  4. Scegli Risoluzione dei problemi con AI.

La GIF mostra l'implementazione completa di un'esecuzione non riuscita e la risoluzione dei problemi con la funzionalità AI in esecuzione.

Opzione 3: dalla pagina Job Run Details

  1. Passa alla pagina dei dettagli dell'esecuzione del processo non riuscita facendo clic su Visualizza dettagli su un'esecuzione non riuscita nella scheda Esecuzioni o selezionando il processo eseguito dalla pagina Monitoraggio dell'esecuzione del processo.

  2. Nella pagina dei dettagli dell'esecuzione del processo, trova la scheda Analisi della risoluzione dei problemi.

Categorie di risoluzione dei problemi supportate (anteprima)

Questo servizio si concentra su tre categorie principali di problemi che i data engineer e gli sviluppatori incontrano frequentemente nelle loro applicazioni Spark:

  • Errori di configurazione e accesso alle risorse: quando si eseguono applicazioni Spark in AWS Glue, gli errori di configurazione e accesso alle risorse sono tra i problemi più comuni ma difficili da diagnosticare. Questi errori si verificano spesso quando l'applicazione Spark tenta di interagire con AWS le risorse ma riscontra problemi di autorizzazione, risorse mancanti o problemi di configurazione.

  • Problemi di memoria del driver Spark e dell'esecutore: gli errori relativi alla memoria nei job di Apache Spark possono essere complessi da diagnosticare e risolvere. Questi errori si manifestano spesso quando i requisiti di elaborazione dei dati superano le risorse di memoria disponibili, sul nodo driver o sui nodi esecutori.

  • Problemi di capacità del disco Spark: gli errori relativi allo storage nei job AWS Glue Spark spesso emergono durante le operazioni di shuffle, la fuoriuscita di dati o quando si ha a che fare con trasformazioni di dati su larga scala. Questi errori possono essere particolarmente complicati perché potrebbero manifestarsi solo dopo un certo periodo di esecuzione del lavoro, con il rischio di sprecare tempo e risorse di elaborazione preziosi.

Nota

Prima di implementare le modifiche suggerite nell'ambiente di produzione, esaminate attentamente le modifiche suggerite. Il servizio fornisce consigli basati su modelli e best practice, ma il caso d'uso specifico potrebbe richiedere ulteriori considerazioni.