AWS Glue ETL - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue ETL

AWS Glue ETL supporta l'estrazione di dati da varie fonti, la loro trasformazione per soddisfare le esigenze aziendali e il caricamento in una destinazione a scelta. Questo servizio utilizza il motore Apache Spark per distribuire carichi di lavoro di big data tra i nodi di lavoro, consentendo trasformazioni più rapide con l'elaborazione in memoria.

AWS Glue supporta una varietà di fonti di dati, tra cui Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB e Amazon Relational Database Service (Amazon RDS). Per ulteriori informazioni sulle fonti di dati supportate, consulta Tipi di connessione e opzioni per ETL in. AWS Glue

Creazione in AWS Glue

AWS Glue offre diversi modi per creare lavori ETL, a seconda dell'esperienza e del caso d'uso:

Unità di elaborazione dati (DPU)

AWS Glue utilizza unità di elaborazione dati (DPU) per misurare le risorse di calcolo allocate a un processo ETL e calcolare i costi. Ogni DPU equivale a 4 vCPU e 16 GB di memoria. Le DPU devono essere assegnate al AWS Glue lavoro in base alla complessità e al volume di dati. L'allocazione della quantità appropriata di DPU consentirà di bilanciare le esigenze prestazionali con i vincoli di costo.

AWS Glue offre diversi tipi di lavoratori ottimizzati per vari carichi di lavoro:

  • G.1X o G.2X (per la maggior parte delle trasformazioni, dei join e delle query dei dati)

  • G.4X o G.8X (per trasformazioni, aggregazioni, join e query di dati più impegnative)

  • G.025X (per flussi di dati sporadici e a basso volume)

  • Standard (per AWS Glue le versioni 1.0 o precedenti; non consigliato per le versioni successive di) AWS Glue

Usare la shell Python

Per un job in Python shell, puoi usare 1 DPU per usare 16 GB di memoria o 0,0625 DPU per usare 1 GB di memoria. La shell Python è pensata per lavori ETL di base con set di dati di piccole o medie dimensioni (fino a circa 10 GB).

Confronto dei tipi di lavoratori

La tabella seguente mostra i diversi tipi di AWS Glue worker per carichi di lavoro batch, streaming ed AWS Glue Studio ETL che utilizzano l'ambiente Apache Spark.

G.1X

G.2X

G.4X

G.8X

G.025X

Standard

VPCU

4

8

16

32

2

4

Memoria

16 GB

32 GB

64 GB

128 GB

4 GB

16 GB

Spazio su disco

64 GB

128 GB

256 GB

512 GB

64 GB

50 GB

Esecutore per lavoratore

1

1

1

1

2

DPU

1

2

4

8

0.25

1

Il tipo di worker Standard non è consigliato per la AWS Glue versione 2.0 e successive. Il tipo di worker G.025X è disponibile solo per i lavori di streaming che utilizzano la AWS Glue versione 3.0 o successiva.