Utilizzo di Apache Hudi con Serverless EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di Apache Hudi con Serverless EMR

Questa sezione descrive l'utilizzo di Apache Hudi con EMR applicazioni serverless. Hudi è un framework di gestione dei dati che semplifica l'elaborazione dei dati.

Per utilizzare Apache Hudi con applicazioni Serverless EMR
  1. Imposta le proprietà Spark richieste nell'esecuzione del job Spark corrispondente.

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Per sincronizzare una tabella Hudi con il catalogo configurato, designa AWS Glue Data Catalog come metastore o configura un metastore esterno. EMR Supporti serverless hms come modalità di sincronizzazione per le tabelle Hive per i carichi di lavoro Hudi. EMR Serverless attiva questa proprietà come impostazione predefinita. Per ulteriori informazioni su come configurare il metastore, consulta. Configurazione Metastore per Serverless EMR

    Importante

    EMRServerless non supporta HIVEQLJDBC fornisce opzioni di modalità di sincronizzazione per le tabelle Hive per gestire i carichi di lavoro Hudi. Per ulteriori informazioni, consulta Modalità di sincronizzazione.

    Quando si utilizza il AWS Glue Data Catalog come metastore, è possibile specificare le seguenti proprietà di configurazione per il job Hudi.

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Per ulteriori informazioni sulle versioni di Apache Hudi di AmazonEMR, consulta la cronologia delle versioni di Hudi.