Versioni AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Versioni AWS Glue

È possibile configurare il parametro della versione di AWS Glue quando si aggiunge o si aggiorna un processo. La versione AWS Glue determina le versioni di Apache Spark e Python supportate da AWS Glue. La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le versioni AWS Glue disponibili, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

Versioni AWS Glue

AWS Glue versione Versioni dell'ambiente di runtime supportate Versione Java supportata Modifiche della funzionalità
AWS Glue4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue 4.0 è la versione più recente di AWS Glue. In questa versione di AWS Glue sono presenti diverse ottimizzazioni e aggiornamenti, come:

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su AmazonEMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Per informazioni, consulta Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi JDBC driver. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

  • Aggiornato con un nuovo connettore e JDBC driver Amazon Redshift.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 4.0:

  • AWS Gluele trasformazioni relative all'apprendimento automatico e alle informazioni di identificazione personale (PII) non sono ancora disponibili nella versione 4.0. AWS Glue

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 4.0.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue for Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • AWS Glue le sessioni interattive per Ray rimangono disponibili in anteprima per questa versione.

  • AWS Glue l'integrazione per Ray con Amazon non VPC è attualmente disponibile. Le risorse VPC in un AWS contenitore non saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo AWS Glue con AmazonVPC, consultaConfigurazione degli VPC endpoint dell'interfaccia (AWS PrivateLink) per AWS Glue ()AWS PrivateLink.

  • AWS Glue for Ray è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Crea la AWS Glue ETL libreria sulla base di Spark 3.0, che è una delle principali release di Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove ottimizzazioni del runtime di Spark AWS Glue per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più rapida basata su Apache Arrow per la lettura dei dati. CSV

    • SIMDesecuzione basata per letture vettoriali con dati. CSV

    • L'aggiornamento Spark include anche ottimizzazioni aggiuntive sviluppate su Amazon. EMR

    • L'aggiornamento EMRFS da 2.38 a 2.46 abilita nuove funzionalità e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark. Per informazioni, consulta Appendice A: aggiornamenti notevoli delle dipendenze.

  • JDBCDriver aggiornati per le nostre fonti di dati supportate nativamente. Per informazioni, consulta Appendice B: aggiornamenti dei driver JDBC.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 3.0:

  • Le trasformazioni basate su machine learning di AWS Glue non sono ancora disponibili in AWS Glue 3.0.

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

Per ulteriori informazioni sulla migrazione a AWS Glue versione 3.0, consulta Migrazione dei processi AWS Glue per Spark ad AWS Glue versione 3.0.

AWS Glue2.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle caratteristiche fornite in AWS Glue versione 1.0, AWS Glue versione 2.0 fornisce inoltre:

  • Un'infrastruttura aggiornata per l'esecuzione dei ETL job di Apache Spark con tempi di avvio ridotti. AWS Glue

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue versione 2.0 differisce da AWS Glue versione 1.0 per alcune dipendenze e versioni dovute a modifiche a livello di architettura. Convalida i processi AWS Glue prima di eseguire la migrazione tra le versioni principali di AWS Glue.

Per ulteriori informazioni sulle funzionalità e le limitazioni di AWS Glue versione 2.0, consulta Esecuzione di processi ETL Spark con tempi di avvio ridotti.

AWS Glue1.0 (obsoleta, fine del supporto)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

È possibile mantenere i segnalibri dei lavori per Parquet e i ORC formati nei AWS Glue ETL lavori (utilizzando AWS Glue la versione 1.0). In precedenza, era possibile aggiungere ai preferiti solo i formati sorgente più comuni di Amazon S3 JSON comeCSV, Apache Avro e in job. XML AWS Glue ETL

Quando si impostano le opzioni di formato per ETL input e output, è possibile specificare di utilizzare il formato di lettura/scrittura Apache Avro 1.8 per supportare la lettura e la scrittura dei tipi logici Avro (utilizzando la versione 1.0). AWS Glue In precedenza, era supportata solo la versione 1.7 del formato di lettura/scrittura Avro.

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 1.0:

  • AWS Gluele versioni 0.9 e 1.0 non saranno disponibili in Asia Pacifico (Giacarta) (), Medio Oriente (ap-southeast-3) () o in altre nuove UAE regioni in futurome-central-1.

AWS Glue0.9 (obsoleta, fine del supporto)
  • Spark 2.2.1

  • Python 2.7

N/D

I processi che sono stati creati senza specificare una versione di AWS Glue utilizzeranno AWS Glue 0.9 per impostazione predefinita.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 0.9:

  • AWS Gluele versioni 0.9 e 1.0 non sono disponibili in Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (UAE) (me-central-1) o in altre nuove regioni in futuro.

Nota

Le seguenti versioni di Glue supportano queste versioni di PythonShell:

  • PythonShell la versione 3.6 è supportata nella versione 1.0 di Glue.

  • PythonShell la versione 3.9 è supportata nella versione 3.0 di Glue.

Inoltre, gli endpoint di sviluppo sono supportati solo nelle versioni 1.0 e 0.9 di Glue.