Utilizzo di Apache Hudi con Serverless EMR

Questa sezione descrive l'utilizzo di Apache Hudi con EMR applicazioni serverless. Hudi è un framework di gestione dei dati che semplifica l'elaborazione dei dati.

Per utilizzare Apache Hudi con applicazioni Serverless EMR

Imposta le proprietà Spark richieste nell'esecuzione del job Spark corrispondente.


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Per sincronizzare una tabella Hudi con il catalogo configurato, designa AWS Glue Data Catalog come metastore o configura un metastore esterno. EMR Supporti serverless hms come modalità di sincronizzazione per le tabelle Hive per i carichi di lavoro Hudi. EMR Serverless attiva questa proprietà come impostazione predefinita. Per ulteriori informazioni su come configurare il metastore, consulta. Configurazione Metastore per Serverless EMR

Importante
EMRServerless non supporta HIVEQL né JDBC fornisce opzioni di modalità di sincronizzazione per le tabelle Hive per gestire i carichi di lavoro Hudi. Per ulteriori informazioni, consulta Modalità di sincronizzazione.

Quando si utilizza il AWS Glue Data Catalog come metastore, è possibile specificare le seguenti proprietà di configurazione per il job Hudi.
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Per ulteriori informazioni sulle versioni di Apache Hudi di AmazonEMR, consulta la cronologia delle versioni di Hudi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo di Java 17

Utilizzo di Iceberg

Utilizzo di Apache Hudi con Serverless EMR

Per utilizzare Apache Hudi con applicazioni Serverless EMR

Importante