As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Uso do Apache Hudi com o EMR Sem Servidor
Esta seção descreve o uso do Apache Hudi com aplicações do EMR Sem Servidor. O Hudi é uma estrutura de gerenciamento de dados que simplifica o processamento de dados.
Para usar o Apache Hudi com aplicações do EMR Sem Servidor
-
Defina as propriedades necessárias do Spark na execução do trabalho correspondente do Spark.
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer
-
Para sincronizar uma tabela Hudi com o catálogo configurado, designe o AWS Glue Data Catalog como sua metastore ou configure uma metastore externa. O EMR Sem Servidor é compatível com
hms
como modo de sincronização de tabelas do Hive para workloads do Hudi. O EMR Sem Servidor ativa essa propriedade como padrão. Para saber mais sobre como configurar sua metastore, consulte Configuração da metastore para EMR Sem Servidor.Importante
O EMR Sem Servidor não oferece suporte a
HIVEQL
ouJDBC
como opções de modo de sincronização para tabelas do Hive lidarem com workloads do Hudi. Para saber mais, consulte Sync modes. Ao usar o AWS Glue Data Catalog como sua metastore, você pode especificar as seguintes propriedades de configuração para sua tarefa Hudi.
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Para saber mais sobre as versões de lançamento do Apache Hudi para o Amazon EMR, consulte Hudi release history.