Kinesis

Os clusters do Amazon EMR podem ler e processar streams do Amazon Kinesis diretamente, usando ferramentas conhecidas no ecossistema Hadoop, como Hive, Pig MapReduce, Hadoop Streaming API e Cascading. Você também pode unir dados em tempo real do Amazon Kinesis a dados existentes no Amazon S3, no Amazon DynamoDB e no HDFS em um cluster em execução. Você pode carregar diretamente os dados do Amazon EMR no Amazon S3 ou no DynamoDB para atividades de pós-processamento. Para obter informações sobre os destaques e o preço do serviço Amazon Kinesis, consulte a página do Amazon Kinesis.

O que fazer com a integração entre Amazon EMR e o Amazon Kinesis?

A integração entre o Amazon EMR e o Amazon Kinesis facilita muito determinados cenários. Por exemplo:

Análise de log de transmissão: você pode analisar logs Web de transmissão para gerar uma lista dos dez maiores tipos de erros, em intervalos de minutos, por região, navegador e domínio de acesso.
Envolvimento do cliente: você pode criar consultas que unam os dados de clickstream do Amazon Kinesis com as informações de campanhas publicitárias armazenadas em uma tabela do DynamoDB para identificar as mais eficientes categorias de anúncios que são exibidos em determinados sites.
Consultas interativas ad hoc: você pode, de tempos em tempos, carregar os dados dos fluxos do Amazon Kinesis para o HDFS e torná-los disponíveis como uma tabela do Impala para obter consultas rápidas, interativas e analíticas.

Análise com ponto de verificação de fluxos do Amazon Kinesis

Os usuários podem executar análises periódicas em lote de fluxos do Amazon Kinesis no que chamados de iterações. Como os registros de dados de fluxo do Amazon Kinesis são recuperados usando um número de sequência, os limites de iteração são definidos por números de sequência iniciais e finais que o Amazon EMR armazena em uma tabela do DynamoDB. Por exemplo, quando iteration0 é encerrado, ele armazena o número de sequência final no DynamoDB, para que, quando o trabalho iteration1 começar, ele possa recuperar dados subsequentes do fluxo. Esse mapeamento de iterações em dados de stream é chamado de pontos de verificação. Para obter mais informações, consulte Kinesis connector.

Se a iteração foi verificada e o trabalho falhou no processamento da iteração, o Amazon EMR tentará reprocessar os registros da iteração.

Pontos de verificação são um recurso que permite:

Iniciar o processamento de dados após um número de sequência processado por uma consulta anterior que foi executada no mesmo stream e nome lógico
Reprocessar o mesmo lote de dados do Kinesis que foi processado por uma consulta anterior

Para habilitar pontos de verificação, defina o parâmetro kinesis.checkpoint.enabled como true nos seus scripts. Além disso, configure os seguintes parâmetros:

Definição da configuração	Descrição
kinesis.checkpoint.metastore.table.name	Nome da tabela do DynamoDB onde serão armazenadas informações de ponto de verificação
kinesis.checkpoint.metastore.hash.key.name	Nome da chave de hash da tabela do DynamoDB
kinesis.checkpoint.metastore.hash.range.name	Nome da chave de intervalo da tabela do DynamoDB
kinesis.checkpoint.logical.name	Um nome lógico para o processamento atual
kinesis.checkpoint.iteration.no	O número de iterações para o processamento associado ao nome lógico
kinesis.rerun.iteration.without.wait	Valor booliano que indica se uma iteração com falha pode ser executada novamente sem esperar o tempo limite; o padrão é `false`

Recomendações de IOPS provisionadas para tabelas do Amazon DynamoDB

O conector do Amazon EMR para Amazon Kinesis usa o banco de dados DynamoDB como suporte para metadados de pontos de verificação. Você deve criar uma tabela no DynamoDB antes de consumir dados em um fluxo do Amazon Kinesis com um cluster do Amazon EMR em intervalos com ponto de verificação. A tabela deve estar na mesma região que o cluster do Amazon EMR. Veja a seguir as recomendações gerais para o número de IOPS que você deve provisionar para as suas tabelas do DynamoDB; deixe que j seja o número máximo de trabalhos do Hadoop (com uma combinação diferente de nome lógico + número de iteração) que podem ser executados simultaneamente e deixe que s seja o número máximo de fragmentos que qualquer trabalho processará:

Para Read Capacity Units (Unidades de capacidade de leitura): j*s/5

Para Write Capacity Units (Unidades de capacidade de gravação): j*s

Considerações sobre a performance

O throughput de fragmento do Amazon Kinesis é diretamente proporcional ao tamanho da instância de nós em clusters do Amazon EMR e ao tamanho do registro no fluxo. Recomendamos que você use m5.xlarge ou instâncias maiores no nó principal e nos nós centrais.

Agendar a análise do Amazon Kinesis com o Amazon EMR

Quando você estiver analisando dados em um fluxo do Amazon Kinesis ativo, limitado por tempos limite e uma duração máxima para qualquer iteração, será importante executar sempre a análise para coletar detalhes periódicos do fluxo. Existem várias maneiras de executar esses scripts e consultas em intervalos periódicos; recomendamos usar AWS Data Pipeline em tarefas recorrentes como essas. Para obter mais informações, consulte AWS Data Pipeline PigActivitye AWS Data Pipeline HiveActivityno Guia do AWS Data Pipeline desenvolvedor.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Otimizar o desempenho

Migração do conector do Spark Kinesis para o SDK 2.x do Amazon EMR 7.0

Selecione suas preferências de cookies

Personalizar preferências de cookies

Essenciais

Desempenho

Funcionais

Publicidade

Não foi possível salvar as preferências de cookie

Kinesis

O que fazer com a integração entre Amazon EMR e o Amazon Kinesis?

Análise com ponto de verificação de fluxos do Amazon Kinesis

Recomendações de IOPS provisionadas para tabelas do Amazon DynamoDB

Considerações sobre a performance

Agendar a análise do Amazon Kinesis com o Amazon EMR

Esta página foi útil?

Próximo tópico:

Tópico anterior:

Precisa de ajuda?