Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWS Glue recupera i dati dalle origini e scrive i dati sulle destinazioni archiviati e trasportati in vari formati di dati. Se i tuoi dati vengono archiviati o trasportati nel formato di dati Ion, questo documento descrive le funzioni disponibili per l'utilizzo dei tuoi dati in AWS Glue.
AWS Glue supporta l'uso del formato Ion. Questo formato rappresenta strutture di dati (che non sono basate su righe o colonne) in rappresentazioni binarie e di testo semplice intercambiabili. Per un'introduzione al formato da parte degli autori, consulta Amazon Ion
Puoi utilizzare AWS Glue per leggere file Ion da Amazon S3. Puoi leggere e scrivere archivi bzip
e gzip
contenenti file Ion da S3. Puoi configurare il comportamento di compressione sul Parametri di connessione di S3 invece che nella configurazione discussa in questa pagina.
La tabella seguente mostra le operazioni comuni di AWS Glue che supportano l'opzione del formato Ion.
Lettura | Scrittura | Lettura in streaming | Gruppo di file piccoli | Segnalibri di processo |
---|---|---|---|---|
Supportato | Non supportato. | Non supportato. | Supportato | Non supportato. |
Esempio: lettura di cartelle e file Ion da S3
Prerequisiti: occorreranno i percorsi S3 (s3path
) nelle cartelle o nei file Ion da leggere.
Configurazione: nelle opzioni della funzione, specifica format="json"
. Nelle tue connection_options
, utilizza la chiave paths
per specificare s3path
. Puoi configurare il modo in cui il reader interagisce con S3 in connection_options
. Per maggiori dettagli, consulta Tipi di connessione e opzioni per ETL in AWS Glue: Indicazioni di riferimento alle opzioni di connessione ad Amazon S3.
Il seguente script ETL di AWS Glue mostra il processo di lettura di cartelle o file Ion da S3:
Per questo esempio, utilizza il metodo create_dynamic_frame.from_options.
# Example: Read ION from S3
from pyspark.context import SparkContext
from awsglue.context import GlueContext
sc = SparkContext.getOrCreate()
glueContext = GlueContext(sc)
dynamicFrame = glueContext.create_dynamic_frame.from_options(
connection_type="s3",
connection_options={"paths": ["s3://s3path
"]},
format="ion"
)
Documentazione di riferimento della configurazione Ion
Non ci sono valori di format_options
per format="ion"
.