Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Processar dados do DynamoDB com o Apache Hive no Amazon EMR

Modo de foco
Processar dados do DynamoDB com o Apache Hive no Amazon EMR - Amazon DynamoDB

O Amazon DynamoDB é integrado com o Apache Hive, uma aplicação de data warehousing que pode ser executada no Amazon EMR. O Hive pode ler e gravar dados nas tabelas do DynamoDB, permitindo que você:

  • Consulte dados dinâmicos do DynamoDB usando uma linguagem semelhante a SQL (HiveQL).

  • Copie dados de uma tabela do DynamoDB para um bucket do Amazon S3 e vice-versa.

  • Copie dados de uma tabela do DynamoDB para o Hadoop Distributed File System (HDFS) e vice-versa.

  • Execute operações de junção em tabelas do DynamoDB.

Visão geral

O Amazon EMR é um serviço que facilita o processamento de grandes quantidades de dados de maneira rápida e econômica. Para usar o Amazon EMR, você deve iniciar um cluster gerenciado de instâncias do Amazon EC2 executando o framework de código aberto do Hadoop. O Hadoop é uma aplicação distribuída que implementa o algoritmo MapReduce, onde uma tarefa é mapeada para vários nós no cluster. Cada nó processa seu trabalho designado em paralelo com outros nós. Finalmente, as saídas são reduzidas em um único nó, gerando o resultado final.

Você pode optar por iniciar seu cluster do Amazon EMR de modo que ele seja persistente ou transitório:

  • Um cluster persistente é executado até ser desativado por você. Os clusters persistentes são ideais para análise de dados, armazenamento de dados ou qualquer outro uso interativo.

  • Um cluster transitório é executado por tempo suficiente para processar um fluxo de trabalho e, em seguida, é desativado automaticamente. Os clusters transitórios são ideais para tarefas de processamento periódicas, como a execução de scripts.

Para obter informações sobre arquitetura e administração do Amazon EMR, consulte o Guia de gerenciamento do Amazon EMR.

Ao iniciar um cluster do Amazon EMR, você deve especificar o número inicial e o tipo de instâncias do Amazon EC2. Você também pode especificar outras aplicações distribuídas (além do Hadoop em si) que deseja executar no cluster. Esses aplicativos incluem Matiz, Mahout, Pig, Spark e muito mais.

Para obter informações sobre aplicações para Amazon EMR, consulte o Guia de versão do Amazon EMR.

Dependendo da configuração do cluster, é possível ter um ou mais dos seguintes tipos de nó:

  • Nó líder: gerencia o cluster, coordenando a distribuição do MapReduce executável e os subconjuntos de dados brutos, o núcleo e os grupos de instâncias de tarefa. Ele também acompanha o status de cada tarefa executada e monitora a integridade dos grupos de instâncias. Há apenas um nó principal em um cluster.

  • Nós core - executam tarefas do MapReduce e armazenam dados usando o Hadoop Distributed File System (HDFS).

  • Nós de tarefas (opcional) – executam tarefas do MapReduce.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.