Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue ETL
AWS Glue ETL supporta l'estrazione di dati da varie fonti, la loro trasformazione per soddisfare le esigenze aziendali e il caricamento in una destinazione a scelta. Questo servizio utilizza il motore Apache Spark per distribuire carichi di lavoro di big data tra i nodi di lavoro, consentendo trasformazioni più rapide con l'elaborazione in memoria.
AWS Glue supporta una varietà di fonti di dati, tra cui Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB e Amazon Relational Database Service (Amazon RDS). Per ulteriori informazioni sulle fonti di dati supportate, consulta Tipi di connessione e opzioni per ETL in. AWS Glue
Creazione in AWS Glue
AWS Glue offre diversi modi per creare lavori ETL, a seconda dell'esperienza e del caso d'uso:
-
I job della shell Python sono progettati per eseguire script ETL di base scritti in Python. Questi job vengono eseguiti su una singola macchina e sono più adatti per set di dati di piccole o medie dimensioni.
-
I job di Apache Spark possono essere scritti in Python o Scala. Questi job utilizzano Spark per scalare orizzontalmente i carichi di lavoro su molti nodi di lavoro, in modo da poter gestire set di dati di grandi dimensioni e trasformazioni complesse.
-
AWS Glue streaming ETL utilizza il motore Apache Spark Structured Streaming per trasformare i dati di streaming in processi microbatch utilizzando la semantica Exactly-Once.
Puoi creare lavori di AWS Glue streaming in Python o Scala. -
AWS Glue Studioè un'interfaccia boxes-and-arrows in stile visivo per rendere l'ETL basato su Spark accessibile agli sviluppatori che non conoscono la programmazione di Apache Spark.
Unità di elaborazione dati (DPU)
AWS Glue utilizza unità di elaborazione dati (DPU) per misurare le risorse di calcolo allocate a un processo ETL e calcolare i costi. Ogni DPU equivale a 4 vCPU e 16 GB di memoria. Le DPU devono essere assegnate al AWS Glue lavoro in base alla complessità e al volume di dati. L'allocazione della quantità appropriata di DPU consentirà di bilanciare le esigenze prestazionali con i vincoli di costo.
AWS Glue offre diversi tipi di lavoratori ottimizzati per vari carichi di lavoro:
-
G.1X o G.2X (per la maggior parte delle trasformazioni, dei join e delle query dei dati)
-
G.4X o G.8X (per trasformazioni, aggregazioni, join e query di dati più impegnative)
-
G.025X (per flussi di dati sporadici e a basso volume)
-
Standard (per AWS Glue le versioni 1.0 o precedenti; non consigliato per le versioni successive di) AWS Glue
Usare la shell Python
Per un job in Python shell, puoi usare 1 DPU per usare 16 GB di memoria o 0,0625 DPU per usare 1 GB di memoria. La shell Python è pensata per lavori ETL di base con set di dati di piccole o medie dimensioni (fino a circa 10 GB).
Confronto dei tipi di lavoratori
La tabella seguente mostra i diversi tipi di AWS Glue worker per carichi di lavoro batch, streaming ed AWS Glue Studio ETL che utilizzano l'ambiente Apache Spark.
G.1X |
G.2X |
G.4X |
G.8X |
G.025X |
Standard |
|
VPCU |
4 |
8 |
16 |
32 |
2 |
4 |
Memoria |
16 GB |
32 GB |
64 GB |
128 GB |
4 GB |
16 GB |
Spazio su disco |
64 GB |
128 GB |
256 GB |
512 GB |
64 GB |
50 GB |
Esecutore per lavoratore |
1 |
1 |
1 |
1 |
1 |
2 |
DPU |
1 |
2 |
4 |
8 |
0.25 |
1 |
Il tipo di worker Standard non è consigliato per la AWS Glue versione 2.0 e successive. Il tipo di worker G.025X è disponibile solo per i lavori di streaming che utilizzano la AWS Glue versione 3.0 o successiva.