Opzioni di formato dei dati per ingressi e uscite in AWS Glue per Spark - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni di formato dei dati per ingressi e uscite in AWS Glue per Spark

Queste pagine offrono informazioni sul supporto delle funzionalità e sui parametri di configurazione per i formati di dati supportati da AWS Glue per Spark. Consulta quanto riportato di seguito per una descrizione dell'uso e dell'applicabilità di queste informazioni.

Supporto delle funzionalità per tutti i formati di dati in AWS Glue

Ogni formato di dati può supportare diverse funzionalità di AWS Glue. Le funzioni comuni indicate di seguito possono essere supportate o meno in base al tipo di formato. Consulta la documentazione relativa al formato dati per capire come sfruttare le nostre funzioni per soddisfare i tuoi requisiti.

Lettura AWS Glue è in grado di riconoscere e interpretare questo formato di dati senza risorse aggiuntive, come i connettori.
Scrittura AWS Glue può scrivere dati in questo formato senza risorse aggiuntive. Puoi includere librerie di terzi nel tuo processo e utilizzare funzioni standard di Apache Spark per scrivere i dati, come con altri ambienti Spark. Per ulteriori informazioni sull’inclusione di librerie, consulta Usare le librerie Python con Glue AWS.
Lettura in streaming AWS Glue è in grado di riconoscere e interpretare questo formato di dati da un flusso di messaggi Apache Kafka, Amazon Managed Streaming for Apache Kafka o Amazon Kinesis. Prevediamo che i flussi presentino i dati in un formato coerente, quindi vengano letti come DataFrames.
Gruppo di file piccoli AWS Glue può raggruppare i file per il lavoro in batch inviato a ciascun nodo durante l'esecuzione delle trasformazioni di AWS Glue. Ciò può migliorare significativamente le prestazioni per carichi di lavoro che implicano grandi quantità di file piccoli. Per ulteriori informazioni, consulta Lettura di file di input in gruppi di grandi dimensioni.
Segnalibri di processo AWS Glue è in grado di monitorare l'avanzamento delle trasformazioni che eseguono lo stesso lavoro sullo stesso set di dati in tutte le esecuzioni di lavoro con i segnalibri dei lavori. Ciò può migliorare le prestazioni per carichi di lavoro che implicano set di dati in cui occorre operare solo su nuovi dati dall'ultima esecuzione del processo. Per ulteriori informazioni, consulta Monitoraggio dei dati elaborati mediante segnalibri di processo.

Parametri utilizzati per interagire con i formati di dati in AWS Glue

Alcuni tipi di connessione AWS Glue supportano più format tipi, pertanto è necessario specificare informazioni sul formato dei dati con un format_options oggetto quando si utilizzano metodi comeGlueContext.write_dynamic_frame.from_options.

Alcuni tipi di connessione non richiedono format_options. Ad esempio, nell'utilizzo normale, una connessione JDBC a un database relazionale recupera i dati in un formato dati tabulare coerente. Pertanto, la lettura da una connessione JDBC non richiedere format_options.

Alcuni metodi per la lettura e la scrittura di dati in Glue non richiedono format_options. Ad esempio, utilizzando GlueContext.create_dynamic_frame.from_catalog con i crawler AWS Glue. I crawler determinano la forma dei dati. Quando si utilizzano i crawler, un classificatore AWS Glue esaminerà i dati per prendere decisioni intelligenti su come rappresentare il formato dei dati. Quindi memorizzerà una rappresentazione dei dati nel AWS Glue Data Catalog, che può essere utilizzata all'interno di uno script AWS Glue ETL per recuperare i dati con il GlueContext.create_dynamic_frame.from_catalog metodo. I crawler eliminano la necessità di specificare manualmente informazioni sul formato dati.

Per i lavori che accedono a tabelle AWS Lake Formation gestite, AWS Glue supporta la lettura e la scrittura di tutti i formati supportati dalle tabelle governate da Lake Formation. Per l'elenco corrente dei formati supportati per le tabelle AWS Lake Formation governate, consulta Note e restrizioni per le tabelle governate nella Guida per gli AWS Lake Formation sviluppatori.

Nota

Per scrivere Apache Parquet, AWS Glue ETL supporta solo la scrittura su una tabella gestita specificando un'opzione per un tipo di writer Parquet personalizzato ottimizzato per Dynamic Frames. Quando scrivi su una tabella governata con il formato parquet, è necessario aggiungere la chiave useGlueParquetWriter con un valore di true nei parametri della tabella.

Riferimento alla configurazione condivisa

È possibile utilizzare i seguenti valori di format_options con ogni tipo di formato.

  • attachFilename: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, il nome del file di origine del record verrà aggiunto al record. Il valore del parametro verrà utilizzato come nome della colonna.

  • attachTimestamp: una stringa nel formato appropriato da utilizzare come nome di colonna. Se si fornisce questa opzione, l'ora di modifica del file di origine del record verrà aggiunta al record. Il valore del parametro verrà utilizzato come nome della colonna.