AWS Glue versioni - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue versioni

È possibile configurare il parametro della AWS Glue versione quando si aggiunge o si aggiorna un lavoro. La AWS Glue versione determina le versioni di Apache Spark e Python supportate. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark. La tabella seguente elenca le versioni AWS Glue disponibili, le versioni Spark e Python corrispondenti e altre modifiche di funzionalità.

AWS Glue versioni

AWS Glue versione Versioni dell'ambiente di runtime supportate Versione Java supportata Modifiche della funzionalità
AWS Glue 5.0
  • Spark 3.5.2

  • Python 3.11

  • Scala 2.12.18

Java 17

Oltre agli aggiornamenti del framework, in questa AWS Glue versione sono presenti ottimizzazioni e aggiornamenti, come:

  • Supporto per Amazon SageMaker Unified Studio

  • Assistenza Amazon SageMaker Lakehouse

  • Open Table Formats (OTF) aggiornato a Hudi 0.15.0, Iceberg 1.6.1 e Delta Lake 3.2.1

  • Controllo degli accessi a grana fine nativo di Spark tramite Lake Formation.

  • Supporto per Amazon S3 Access Grants

  • requirements.txtsupporto per installare librerie Python aggiuntive

  • Supporto per la derivazione dei dati in Amazon DataZone

Limitazioni

Di seguito sono riportate le limitazioni della AWS Glue versione 5.0:

  • GlueContexte i frame dinamici non sono supportati con il controllo di accesso a grana fine nativo di Spark () che utilizza FGAC Lake Formation.

Per ulteriori informazioni sulla migrazione alla versione 5.0, consulta. AWS Glue Migrazione AWS Glue per i job Spark alla versione 5.0 AWS Glue

AWS Glue 4.0 Versioni dell'ambiente Spark
  • Spark 3.3.0

  • Python 3.10

Java 8

AWS Glue La versione 4.0 include una serie di ottimizzazioni e aggiornamenti, come ad esempio: AWS Glue

  • Numerosi aggiornamenti delle funzionalità Spark da Spark 3.1 a Spark 3.3:

    • Diversi miglioramenti delle funzionalità se abbinato a Pandas. Per ulteriori informazioni, consulta Novità di Spark 3.3.

    • Ottimizzazioni aggiuntive sviluppate su AmazonEMR.

    • Aggiornamento a EMR File System (EMRFS) 2.53.

  • Migrazione a Log4j 2 da Log4j 1.x

  • Diversi aggiornamenti del modulo Python da AWS Glue 3.0, come una versione aggiornata di Boto.

  • Aggiornamento di diversi connettori, tra cui il connettore Amazon Redshift predefinito. Per informazioni, consulta Appendice C: Aggiornamenti dei connettori.

  • Aggiornamento di diversi JDBC driver. Per informazioni, consulta Appendice B: JDBC aggiornamenti dei driver.

  • Aggiornato con un nuovo connettore e JDBC driver Amazon Redshift.

  • Supporto nativo per framework open data lake con Apache Hudi, Delta Lake e Apache Iceberg.

  • Supporto nativo per il Cloud Shuffle Storage Plugin basato su Amazon S3 (un plug-in Apache Spark) per utilizzare Amazon S3 per lo shuffling e la capacità di archiviazione elastica.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 4.0:

  • AWS Glue le trasformazioni relative all'apprendimento automatico e alle informazioni di identificazione personale (PII) non sono ancora disponibili nella versione 4.0. AWS Glue

Per ulteriori informazioni sulla migrazione a AWS Glue versione 4.0, consulta Migrazione AWS Glue per i job Spark alla versione 4.0 AWS Glue.

Versioni dell'ambiente Ray
  • Ray 2.4.0

    Python 3.9

N/D

Crea ed esegui applicazioni Python distribuite con AWS Glue for Ray.

Limitazioni sui processi Ray in AWS Glue 4.0

  • AWS Glue le sessioni interattive per Ray rimangono disponibili in anteprima per questa versione.

  • AWS Glue l'integrazione per Ray con Amazon non VPC è attualmente disponibile. Le risorse VPC in un AWS contenitore non saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo AWS Glue con AmazonVPC, consultaConfigurazione degli VPC endpoint dell'interfaccia (AWS PrivateLink) per AWS Glue ()AWS PrivateLink.

  • AWS Glue for Ray è disponibile negli Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

AWS Glue 3.0
  • Spark 3.1.1

  • Python 3.7

Java 8

Oltre all'aggiornamento del motore Spark a 3.0, questa versione di AWS Glue presenta ottimizzazioni e aggiornamenti integrati, ad esempio:

  • Crea la AWS Glue ETL libreria sulla base di Spark 3.0, che è una delle principali release di Spark.

  • I processi di streaming sono supportati su AWS Glue 3.0.

  • Include nuove ottimizzazioni del runtime di AWS Glue Spark per prestazioni e affidabilità:

    • Elaborazione colonnare in memoria più rapida basata su Apache Arrow per la lettura dei dati. CSV

    • SIMDesecuzione basata per letture vettoriali con dati. CSV

    • L'aggiornamento Spark include anche ottimizzazioni aggiuntive sviluppate su Amazon. EMR

    • L'aggiornamento EMRFS da 2.38 a 2.46 abilita nuove funzionalità e correzioni di bug per l'accesso ad Amazon S3.

  • Sono state aggiornate diverse dipendenze necessarie per la nuova versione di Spark.

  • JDBCDriver aggiornati per le nostre fonti di dati supportate nativamente.

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 3.0:

  • AWS Glue le trasformazioni dell'apprendimento automatico non sono ancora disponibili nella versione 3.0. AWS Glue

  • Alcuni connettori Spark personalizzati non funzionano con AWS Glue 3.0 se dipendono da Spark 2.4 e non sono compatibili con Spark 3.1.

AWS Glue 2.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 3.7

N/D

Oltre alle funzionalità fornite nella AWS Glue versione 1.0, la AWS Glue versione 2.0 offre anche:

  • Un'infrastruttura aggiornata per l'esecuzione dei ETL job di Apache Spark AWS Glue con tempi di avvio ridotti.

  • La registrazione di default è ora in tempo reale, con flussi separati per driver ed esecutori, e contiene output ed errori.

  • Supporto per la specifica di moduli Python o versioni diverse aggiuntivi a livello di processo.

Nota

AWS Glue la versione 2.0 differisce dalla AWS Glue versione 1.0 per alcune dipendenze e versioni a causa delle modifiche architettoniche sottostanti. Convalida i processi AWS Glue prima di eseguire la migrazione tra le versioni principali di AWS Glue .

AWS Glue 1.0 (obsoleto, fine del supporto)
  • Spark 2.4.3

  • Python 2.7

  • Python 3.6

N/D

È possibile mantenere i segnalibri dei lavori per Parquet e i ORC formati nei AWS Glue ETL lavori (utilizzando AWS Glue la versione 1.0). In precedenza, era possibile aggiungere ai preferiti solo i formati sorgente più comuni di Amazon S3 JSON comeCSV, Apache Avro e in job. XML AWS Glue ETL

Quando si impostano le opzioni di formato per ETL input e output, è possibile specificare di utilizzare il formato di lettura/scrittura Apache Avro 1.8 per supportare la lettura e la scrittura dei tipi logici Avro (utilizzando la versione 1.0). AWS Glue In precedenza, era supportata solo la versione 1.7 del formato di lettura/scrittura Avro.

Il tipo di connessione DynamoDB supporta un'opzione di scrittura (utilizzando AWS Glue versione 1.0).

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 1.0:

  • AWS Glue le versioni 0.9 e 1.0 non saranno disponibili in Asia Pacifico (Giacarta) (), Medio Oriente (ap-southeast-3) () o in altre nuove UAE regioni in futurome-central-1.

AWS Glue 0.9 (obsoleto, fine del supporto)
  • Spark 2.2.1

  • Python 2.7

N/D

Lavori che sono stati creati senza specificare una AWS Glue versione predefinita è 0.9. AWS Glue

Limitazioni

Le limitazioni seguenti sono relative a AWS Glue 0.9:

  • AWS Glue le versioni 0.9 e 1.0 non sono disponibili in Asia Pacifico (Giacarta) (ap-southeast-3), Medio Oriente (UAE) (me-central-1) o in altre nuove regioni in futuro.

Nota

Le seguenti versioni di Glue supportano queste versioni di PythonShell:

  • PythonShell la versione 3.6 è supportata nella versione 1.0 di Glue.

  • PythonShell la versione 3.9 è supportata nella versione 3.0 di Glue.

Inoltre, gli endpoint di sviluppo sono supportati solo nelle versioni 1.0 e 0.9 di Glue.