Uso do Apache Hudi com o EMR Sem Servidor - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Uso do Apache Hudi com o EMR Sem Servidor

Esta seção descreve o uso do Apache Hudi com aplicações do EMR Sem Servidor. O Hudi é uma estrutura de gerenciamento de dados que simplifica o processamento de dados.

Para usar o Apache Hudi com aplicações do EMR Sem Servidor
  1. Defina as propriedades necessárias do Spark na execução do trabalho correspondente do Spark.

    spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
  2. Para sincronizar uma tabela Hudi com o catálogo configurado, designe o AWS Glue Data Catalog como sua metastore ou configure uma metastore externa. O EMR Sem Servidor é compatível com hms como modo de sincronização de tabelas do Hive para workloads do Hudi. O EMR Sem Servidor ativa essa propriedade como padrão. Para saber mais sobre como configurar sua metastore, consulte Configuração da metastore para EMR Sem Servidor.

    Importante

    O EMR Sem Servidor não oferece suporte a HIVEQL ou JDBC como opções de modo de sincronização para tabelas do Hive lidarem com workloads do Hudi. Para saber mais, consulte Sync modes.

    Ao usar o AWS Glue Data Catalog como sua metastore, você pode especificar as seguintes propriedades de configuração para sua tarefa Hudi.

    --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Para saber mais sobre as versões de lançamento do Apache Hudi para o Amazon EMR, consulte Hudi release history.