Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Un AWS Glue job incapsula uno script che si connette ai dati di origine, li elabora e quindi li scrive nella destinazione dei dati. Di solito un processo esegue script di estrazione, trasformazione e caricamento (ETL). I processi possono anche eseguire script Python generici (processi shell Python). AWS Glue I trigger possono avviare processi in base a una pianificazione, un evento o su richiesta. È possibile monitorare le esecuzioni dei processi per comprendere i parametri di runtime come esito positivo, durata e ora di inizio.
È possibile utilizzare script che AWS Glue generano oppure fornire script personalizzati. Con uno schema di origine e una posizione o uno schema di destinazione, il generatore di AWS Glue codice può creare automaticamente uno script Apache Spark API ()PySpark. Puoi usare questo script come punto di partenza e modificarlo per soddisfare gli obiettivi.
AWS Glue può scrivere file di output in diversi formati di dati, tra cui JSON, CSV, ORC (Optimized Row Columnar), Apache Parquet e Apache Avro. Per alcuni formati di dati, possono essere scritti formati comuni di compressione.
AWS Glue supporta i seguenti tipi di lavori:
Un job Spark viene eseguito in un ambiente Apache Spark gestito da. AWS Glue Elabora i dati in batch.
-
Un processo ETL di streaming è simile a un processo Spark, ad eccezione del fatto che esegue ETL sui flussi di dati. Esso utilizza il framework Apache Spark Structured Streaming. Alcune caratteristiche dei processi Spark non sono disponibili per i processi ETL in streaming.
-
Un processo di shell Python esegue gli script Python come shell e supporta una versione di Python che dipende dalla versione in uso. AWS Glue Puoi utilizzare questi processi per pianificare ed eseguire attività che non richiedono un ambiente Apache Spark.
-
Ray è un framework di calcolo distribuito open source che puoi utilizzare per aumentare i carichi di lavoro, con particolare attenzione a Python. AWS Glue I lavori Ray e le sessioni interattive ti consentono di utilizzare Ray all'interno. AWS Glue
Nelle sezioni seguenti vengono fornite informazioni sui processi ETL e Ray in AWS Glue.