Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Hudi

Modo de foco
Hudi - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O Apache Hudi é uma estrutura de gerenciamento de dados de código aberto usada para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados ao fornecer recursos de inserção, atualização, upsert e exclusão em nível de registro. Upsert refere-se à capacidade de inserir registros em um conjunto de dados existente se eles ainda não existirem ou atualizá-los se existirem. Ao gerenciar eficientemente a forma como os dados são apresentados no Amazon S3, o Hudi permite que os dados sejam ingeridos e atualizados quase em tempo real. O Hudi mantém cuidadosamente metadados das ações realizadas no conjunto de dados para ajudar a garantir que as ações sejam atômicas e consistentes.

O Hudi é integrado ao Apache Spark, ao Apache Hive e ao Presto. Nas versões 6.1.0 e posteriores do Amazon EMR, o Hudi também está integrado ao Trino (PrestoSQL).

Nas versões 5.28.0 e posteriores, o Amazon EMR instala os componentes do Hudi por padrão quando o Spark, o Hive, o Presto ou o Flink está instalado. Você pode usar o Spark ou o DeltaStreamer utilitário Hudi para criar ou atualizar conjuntos de dados Hudi. É possível usar o Hive, o Spark, o Presto ou o Flink para consultar um conjunto de dados do Hudi interativamente ou criar pipelines de processamento de dados usando extração incremental. Extração incremental refere-se à capacidade de extrair apenas os dados que foram alterados entre duas ações.

Esses atributos tornam o Hudi adequado para os seguintes casos de uso:

  • Trabalhar com dados de streaming de sensores e outros dispositivos da Internet das Coisas (IoT) que exigem eventos específicos de inserção e atualização de dados.

  • Cumprir os regulamentos de privacidade de dados em aplicativos em que os usuários possam optar por serem esquecidos ou modificar seu consentimento para a forma como os dados podem ser utilizados.

  • Implementar um sistema de captura de dados de alteração (CDC) que permita aplicar alterações a um conjunto de dados ao longo do tempo.

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série 7.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hudi.

Para a versão dos componentes instalados com o Hudi nesta versão, consulte Versões de componentes da versão 7.8.0.

Informações sobre a versão Hudi para emr-7.8.0
Rótulo de versão do Amazon EMR Versão do Hudi Componentes instalados com o Hudi

emr-7.8.0

Hudi 0.15.0-amzn-5

Not available.

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série 6.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hudi.

Para obter a versão dos componentes instalados com o Hudi nessa versão, consulte Release 6.15.0 Component Versions.

Informações de versão do Hudi para o emr-6.15.0
Rótulo de versão do Amazon EMR Versão do Hudi Componentes instalados com o Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

nota

A versão 6.8.0 do Amazon EMR vem com o Apache Hudi 0.11.1; no entanto, os clusters do Amazon EMR 6.8.0 também são compatíveis com o código aberto hudi-spark3.3-bundle_2.12 do Hudi 0.12.0.

A tabela a seguir lista a versão do Hudi incluída na versão mais recente da série 5.x do Amazon EMR, além dos componentes que o Amazon EMR instala com o Hudi.

Para obter a versão dos componentes instalados com o Hudi nesse lançamento, consulte Release 5.36.2 Component Versions.

Informações de versão do Hudi para o emr-5.36.2
Rótulo de versão do Amazon EMR Versão do Hudi Componentes instalados com o Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.