Uso do Apache Hudi com o EMR Sem Servidor

Esta seção descreve o uso do Apache Hudi com aplicações do EMR Sem Servidor. O Hudi é uma estrutura de gerenciamento de dados que simplifica o processamento de dados.

Para usar o Apache Hudi com aplicações do EMR Sem Servidor

Defina as propriedades necessárias do Spark na execução do trabalho correspondente do Spark.


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

Para sincronizar uma tabela Hudi com o catálogo configurado, designe o AWS Glue Data Catalog como sua metastore ou configure uma metastore externa. O EMR Sem Servidor é compatível com hms como modo de sincronização de tabelas do Hive para workloads do Hudi. O EMR Sem Servidor ativa essa propriedade como padrão. Para saber mais sobre como configurar sua metastore, consulte Configuração da metastore para EMR Sem Servidor.

Importante
O EMR Sem Servidor não oferece suporte a HIVEQL ou JDBC como opções de modo de sincronização para tabelas do Hive lidarem com workloads do Hudi. Para saber mais, consulte Sync modes.

Ao usar o AWS Glue Data Catalog como sua metastore, você pode especificar as seguintes propriedades de configuração para sua tarefa Hudi.
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

Para saber mais sobre as versões de lançamento do Apache Hudi para o Amazon EMR, consulte Hudi release history.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Uso do Java 17

Uso do Iceberg

Uso do Apache Hudi com o EMR Sem Servidor

Para usar o Apache Hudi com aplicações do EMR Sem Servidor

Importante