Avvio di ETL lavori visivi in AWS Glue Studio - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Avvio di ETL lavori visivi in AWS Glue Studio

Puoi utilizzare la semplice interfaccia visiva AWS Glue Studio per creare i tuoi ETL lavori. Puoi la pagina Jobs (Processi) per creare nuovi processi. Puoi anche utilizzare un editor di script o un taccuino per lavorare direttamente con il codice nello script di AWS Glue Studio ETL lavoro.

Nella pagina Jobs (Processi) puoi visualizzare tutti i processi creati con AWS Glue Studio o AWS Glue. In questa pagina puoi visualizzare, gestire ed eseguire i processi.

Vedi anche il tutorial del blog su un altro esempio di come creare ETL posti di lavoro conAWS Glue Studio.

Avvio di processi in AWS Glue Studio

AWS Glue consente di creare un processo tramite un'interfaccia visiva, un notebook di codice interattivo o un editor di script. È possibile avviare un processo facendo clic su una delle opzioni o creare un nuovo processo basato su un processo di esempio.

I processi di esempio creano processi con lo strumento che preferisci. Ad esempio, i lavori di esempio consentono di creare un ETL lavoro visivo che unisce CSV i file in una tabella di catalogo, creare un lavoro in un taccuino di codici interattivo con AWS Glue for Ray o Spark quando lavori con i panda o AWS Glue creare un lavoro in un taccuino di codici interattivo con Spark. SQL

Creare un lavoro partendo da zero AWS Glue Studio

  1. Accedi a AWS Management Console e apri la AWS Glue Studio console all'indirizzo https://console.aws.amazon.com/gluestudio/.

  2. Scegli i ETLlavori dal pannello di navigazione.

  3. Nella sezione Crea processo, scegli un'opzione di configurazione per il processo.

    La schermata mostra la pagina Jobs (Processi) di AWS Glue Studio. Nella sezione "Crea processo" vengono visualizzate le opzioni di creazione del processo. Nella sezione "Processi di esempio", scegli un'opzione, quindi scegli Crea un processo di esempio per iniziare un processo di esempio.

    Opzioni per creare un processo da zero:

    • Visivo ETL: autore in un'interfaccia visiva incentrata sul flusso di dati

    • Crea processi utilizzando un notebook a codice interattivo: crea processi in modo interattivo in un'interfaccia notebook basata su notebook Jupyter

      Prima di selezionare questa opzione e creare una sessione di creazione di processi tramite notebook, è necessario fornire informazioni aggiuntive. Per ulteriori informazioni su come specificare queste informazioni, consulta Nozioni di base sui notebook in AWS Glue Studio.

    • Crea codice con un editor di script: se hai familiarità con la programmazione e la scrittura di ETL script, scegli questa opzione per creare un nuovo job SparkETL. Scegli il motore: shell Python, Ray, Spark (Python) o Spark (Scala). Quindi, scegli Inizia da zero o Carica script per caricare uno script esistente da un file locale. Se scegli di utilizzare l'editor di script, per progettare o modificare il tuo processo, non potrai utilizzare l'editor visivo dei processi.

      Un processo Spark viene eseguito in un ambiente Apache Spark gestito da AWS Glue. Per impostazione predefinita, i nuovi script sono codificati in Python. Per scrivere un nuovo script Scala, consulta Creazione e modifica di script Scala in AWS Glue Studio.

Creare un lavoro a AWS Glue Studio partire da un lavoro di esempio

Puoi scegliere di creare un processo da un processo di esempio. Nella sezione Processi di esempio, scegli un processo di esempio, quindi scegli Crea processo di esempio. La creazione di un processo di esempio da una delle opzioni fornisce un modello rapido per iniziare a lavorare.

  1. Accedi a AWS Management Console e apri la AWS Glue Studio console all'indirizzo https://console.aws.amazon.com/gluestudio/.

  2. Scegli i ETLlavori dal pannello di navigazione.

  3. Seleziona un'opzione per creare un processo da un processo di esempio:

    • ETLLavoro visivo per unire più fonti: leggi tre CSV file, combina i dati, modifica i tipi di dati, quindi scrivi i dati su Amazon S3 e catalogali per interrogarli in un secondo momento.

    • Notebook Spark con Pandas: esplora e visualizza i dati utilizzando il popolare framework Pandas combinato con Spark.

    • Utilizzo del notebook SparkSQL: utilizzalo SQL per iniziare rapidamente a usare Apache Spark. Accedi ai dati tramite Catalogo dati AWS Glue e trasformali utilizzando comandi familiari.

  4. Scegli Crea un processo di esempio.