Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Kinesis - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Kinesis

Os clusters do Amazon EMR podem ler e processar streams do Amazon Kinesis diretamente, usando ferramentas conhecidas no ecossistema Hadoop, como Hive, Pig MapReduce, Hadoop Streaming API e Cascading. Você também pode unir dados em tempo real do Amazon Kinesis a dados existentes no Amazon S3, no Amazon DynamoDB e no HDFS em um cluster em execução. Você pode carregar diretamente os dados do Amazon EMR no Amazon S3 ou no DynamoDB para atividades de pós-processamento. Para obter informações sobre os destaques e o preço do serviço Amazon Kinesis, consulte a página do Amazon Kinesis.

O que fazer com a integração entre Amazon EMR e o Amazon Kinesis?

A integração entre o Amazon EMR e o Amazon Kinesis facilita muito determinados cenários. Por exemplo:

  • Análise de log de transmissão: você pode analisar logs Web de transmissão para gerar uma lista dos dez maiores tipos de erros, em intervalos de minutos, por região, navegador e domínio de acesso.

  • Envolvimento do cliente: você pode criar consultas que unam os dados de clickstream do Amazon Kinesis com as informações de campanhas publicitárias armazenadas em uma tabela do DynamoDB para identificar as mais eficientes categorias de anúncios que são exibidos em determinados sites.

  • Consultas interativas ad hoc: você pode, de tempos em tempos, carregar os dados dos fluxos do Amazon Kinesis para o HDFS e torná-los disponíveis como uma tabela do Impala para obter consultas rápidas, interativas e analíticas.

Análise com ponto de verificação de fluxos do Amazon Kinesis

Os usuários podem executar análises periódicas em lote de fluxos do Amazon Kinesis no que chamados de iterações. Como os registros de dados de fluxo do Amazon Kinesis são recuperados usando um número de sequência, os limites de iteração são definidos por números de sequência iniciais e finais que o Amazon EMR armazena em uma tabela do DynamoDB. Por exemplo, quando iteration0 é encerrado, ele armazena o número de sequência final no DynamoDB, para que, quando o trabalho iteration1 começar, ele possa recuperar dados subsequentes do fluxo. Esse mapeamento de iterações em dados de stream é chamado de pontos de verificação. Para obter mais informações, consulte Kinesis connector.

Se a iteração foi verificada e o trabalho falhou no processamento da iteração, o Amazon EMR tentará reprocessar os registros da iteração.

Pontos de verificação são um recurso que permite:

  • Iniciar o processamento de dados após um número de sequência processado por uma consulta anterior que foi executada no mesmo stream e nome lógico

  • Reprocessar o mesmo lote de dados do Kinesis que foi processado por uma consulta anterior

Para habilitar pontos de verificação, defina o parâmetro kinesis.checkpoint.enabled como true nos seus scripts. Além disso, configure os seguintes parâmetros:

Definição da configuração Descrição
kinesis.checkpoint.metastore.table.name Nome da tabela do DynamoDB onde serão armazenadas informações de ponto de verificação
kinesis.checkpoint.metastore.hash.key.name Nome da chave de hash da tabela do DynamoDB
kinesis.checkpoint.metastore.hash.range.name Nome da chave de intervalo da tabela do DynamoDB
kinesis.checkpoint.logical.name Um nome lógico para o processamento atual
kinesis.checkpoint.iteration.no O número de iterações para o processamento associado ao nome lógico
kinesis.rerun.iteration.without.wait Valor booliano que indica se uma iteração com falha pode ser executada novamente sem esperar o tempo limite; o padrão é false

Recomendações de IOPS provisionadas para tabelas do Amazon DynamoDB

O conector do Amazon EMR para Amazon Kinesis usa o banco de dados DynamoDB como suporte para metadados de pontos de verificação. Você deve criar uma tabela no DynamoDB antes de consumir dados em um fluxo do Amazon Kinesis com um cluster do Amazon EMR em intervalos com ponto de verificação. A tabela deve estar na mesma região que o cluster do Amazon EMR. Veja a seguir as recomendações gerais para o número de IOPS que você deve provisionar para as suas tabelas do DynamoDB; deixe que j seja o número máximo de trabalhos do Hadoop (com uma combinação diferente de nome lógico + número de iteração) que podem ser executados simultaneamente e deixe que s seja o número máximo de fragmentos que qualquer trabalho processará:

Para Read Capacity Units (Unidades de capacidade de leitura): j*s/5

Para Write Capacity Units (Unidades de capacidade de gravação): j*s

Considerações sobre a performance

O throughput de fragmento do Amazon Kinesis é diretamente proporcional ao tamanho da instância de nós em clusters do Amazon EMR e ao tamanho do registro no fluxo. Recomendamos que você use m5.xlarge ou instâncias maiores no nó principal e nos nós centrais.

Agendar a análise do Amazon Kinesis com o Amazon EMR

Quando você estiver analisando dados em um fluxo do Amazon Kinesis ativo, limitado por tempos limite e uma duração máxima para qualquer iteração, será importante executar sempre a análise para coletar detalhes periódicos do fluxo. Existem várias maneiras de executar esses scripts e consultas em intervalos periódicos; recomendamos usar AWS Data Pipeline em tarefas recorrentes como essas. Para obter mais informações, consulte AWS Data Pipeline PigActivitye AWS Data Pipeline HiveActivityno Guia do AWS Data Pipeline desenvolvedor.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.