Solução de problemas do MSK Replicator - Amazon Managed Streaming for Apache Kafka

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas do MSK Replicator

As informações a seguir podem ajudá-lo a solucionar problemas que você possa ter com o MSK Replicator. Consulte Solução de problemas do seu MSK cluster Amazon para obter informações sobre solução de problemas sobre outros MSK recursos da Amazon. Você também pode postar seu problema em AWS re:Post.

MSKO estado do replicador vai de para CREATING FAILED

Aqui estão algumas causas comuns de falha na criação MSK do Replicator.

  1. Verifique se os grupos de segurança que você forneceu para a criação do replicador na seção do cluster de destino têm regras de saída para permitir o tráfego para os grupos de segurança do seu cluster de destino. Além disso, verifique se os grupos de segurança do seu cluster de destino têm regras de entrada que aceitem o tráfego proveniente dos grupos de segurança fornecidos para a criação do replicador na seção do cluster de destino. Consulte Escolher seu cluster de destino.

  2. Se você estiver criando o Replicator para replicação entre regiões, verifique se o cluster de origem tem a VPC conectividade múltipla ativada para o método de autenticação de controle de IAM acesso. Consulte Conectividade MSK VPC multiprivada da Amazon em uma única região. Verifique também se a política de cluster está configurada no cluster de origem para que o MSK replicador possa se conectar ao cluster de origem. Consulte Etapa 1: Preparar o cluster de MSK origem da Amazon.

  3. Verifique se a IAM função que você forneceu durante a criação do MSK Replicator tem as permissões necessárias para ler e gravar nos clusters de origem e de destino. Além disso, verifique se a IAM função tem permissões para escrever em tópicos. Consulte Definir configurações e permissões do replicador

  4. Verifique se sua rede não ACLs está bloqueando a conexão entre o MSK replicador e seus clusters de origem e destino.

  5. É possível que os clusters de origem ou de destino não estejam totalmente disponíveis quando o MSK replicador tentou se conectar a eles. Isso pode ser devido à carga excessiva, ao uso ou CPU ao uso do disco, o que faz com que o replicador não consiga se conectar aos agentes. Corrija o problema com os agentes e repita a criação do replicador.

Depois de realizar as validações acima, crie o MSK Replicador novamente.

MSKO replicador parece preso no estado CREATING

Às vezes, a criação MSK do replicador pode levar até 30 minutos. Aguarde 30 minutos e verifique o estado do replicador novamente.

MSKO replicador não está replicando dados ou replicando apenas dados parciais

Siga estas etapas para solucionar problemas de replicação de dados.

  1. Verifique se seu replicador não está enfrentando nenhum erro de autenticação usando a AuthError métrica fornecida pelo MSK Replicator na Amazon. CloudWatch Se essa métrica estiver acima de 0, verifique se a política da IAM função que você forneceu para o replicador é válida e se não há permissões de negação definidas para as permissões do cluster. Com base na clusterAlias dimensão, você pode identificar se o cluster de origem ou de destino está enfrentando erros de autenticação.

  2. Verifique se seus clusters de origem e destino não estão enfrentando problemas. É possível que o replicador não consiga se conectar ao seu cluster de origem ou de destino. Isso pode acontecer devido a muitas conexões, disco com capacidade total ou alto CPU uso.

  3. Verifique se seus clusters de origem e destino podem ser acessados pelo MSK Replicator usando a métrica KafkaClusterPingSuccessCount na Amazon. CloudWatch Com base na clusterAlias dimensão, você pode identificar se o cluster de origem ou de destino está apresentando erros de autenticação. Se essa métrica for 0 ou não tiver ponto de dados, a conexão não está íntegra. Você deve verificar as permissões de rede e IAM função que o MSK Replicator está usando para se conectar aos seus clusters.

  4. Verifique se seu replicador não está enfrentando falhas devido à falta de permissões em nível de tópico usando a métrica ReplicatorFailure na Amazon. CloudWatch Se essa métrica estiver acima de 0, verifique a IAM função que você forneceu para obter permissões em nível de tópico.

  5. Verifique se a expressão regular que você forneceu na lista de permissões ao criar o replicador corresponde aos nomes dos tópicos que você deseja replicar. Além disso, verifique se os tópicos não estão sendo excluídos da replicação devido a uma expressão regular na lista de proibição.

  6. Observe que pode levar até 30 segundos para que o Replicator detecte e crie os novos tópicos ou partições de tópicos no cluster de destino. Qualquer mensagem produzida no tópico de origem antes da criação do tópico no cluster de destino não será replicada se a posição inicial do replicador for a mais recente (padrão). Como alternativa, você pode iniciar a replicação a partir do primeiro deslocamento nas partições de tópicos do cluster de origem se quiser replicar as mensagens existentes sobre seus tópicos no cluster de destino. Consulte Definir configurações e permissões do replicador.

Os deslocamentos de mensagens no cluster de destino são diferentes do cluster de origem

Como parte da replicação de dados, o MSK Replicator consome mensagens do cluster de origem e as produz para o cluster de destino. Isso pode fazer com que as mensagens tenham diferentes deslocamentos nos clusters de origem e de destino. No entanto, se você tiver ativado a sincronização de compensações de grupos de consumidores durante a criação do Replicator, o MSK Replicator traduzirá automaticamente as compensações enquanto copia os metadados para que, após o failover para o cluster de destino, seus consumidores possam retomar o processamento de perto de onde pararam no cluster de origem.

MSKO Replicator não está sincronizando grupos de consumidores, compensações ou o grupo de consumidores não existe no cluster de destino

Siga estas etapas para solucionar problemas de replicação de metadados.

  1. Verifique se sua replicação de dados está funcionando conforme o esperado. Se não, consulte MSKO replicador não está replicando dados ou replicando apenas dados parciais.

  2. Verifique se a expressão regular que você forneceu na lista de permissões ao criar o Replicador corresponde aos nomes dos grupos de consumidores que você deseja replicar. Além disso, verifique se os grupos de consumidores não estão sendo excluídos da replicação devido a uma expressão regular na lista de negação.

  3. Verifique se o MSK Replicator criou o tópico no cluster de destino. Pode levar até 30 segundos para que o Replicator detecte e crie os novos tópicos ou partições de tópicos no cluster de destino. Qualquer mensagem produzida no tópico de origem antes da criação do tópico no cluster de destino não será replicada se a posição inicial do replicador for a mais recente (padrão). Se seu grupo de consumidores no cluster de origem tiver consumido somente as mensagens que não foram replicadas pelo MSK Replicator, o grupo de consumidores não será replicado para o cluster de destino. Depois que o tópico for criado com sucesso no cluster de destino, o MSK Replicator começará a replicar mensagens recém-gravadas no cluster de origem para o de destino. Quando seu grupo de consumidores começar a ler essas mensagens da origem, o MSK Replicator replicará automaticamente o grupo de consumidores para o cluster de destino. Como alternativa, você pode iniciar a replicação a partir do primeiro deslocamento nas partições de tópicos do cluster de origem se quiser replicar as mensagens existentes sobre seus tópicos no cluster de destino. Consulte Definir configurações e permissões do replicador.

nota

MSKO Replicator otimiza a sincronização offset de grupos de consumidores para seus consumidores no cluster de origem, que estão lendo de uma posição mais próxima ao final da partição do tópico. Se seus grupos de consumidores estiverem atrasados no cluster de origem, você poderá observar um atraso maior para esses grupos de consumidores no destino em comparação com a origem. Isso significa que, após o failover para o cluster de destino, seus consumidores reprocessarão mais mensagens duplicadas. Para reduzir esse atraso, seus consumidores no cluster de origem precisariam se atualizar e começar a consumir a partir da ponta do stream (final da partição do tópico). À medida que seus consumidores se atualizarem, o MSK Replicator reduzirá automaticamente o atraso.

A latência de replicação é alta ou continua aumentando

Aqui estão algumas causas comuns da alta latência de replicação.

  1. Verifique se você tem o número certo de partições nos MSK clusters de origem e destino. Ter poucas ou muitas partições pode afetar o desempenho. Para obter orientação sobre como escolher o número de partições, consulte Melhores práticas para usar o MSK Replicator. A tabela a seguir mostra o número mínimo recomendado de partições para obter a taxa de transferência desejada com MSK o Replicator.

    Throughput e número mínimo recomendado de partições
    Throughput (MB/s) Número mínimo necessário de partições
    50 167
    100 334
    250 833
    500 1666
    1000 3333
  2. Verifique se você tem capacidade suficiente de leitura e gravação nos MSK clusters de origem e destino para suportar o tráfego de replicação. MSKO Replicator atua como consumidor do cluster de origem (saída) e como produtor do cluster de destino (entrada). Portanto, você deve provisionar a capacidade do cluster para atender ao tráfego de replicação, além de outros tráfegos em seus clusters. Consulte Melhores práticas para usar o MSK Replicator para obter orientação sobre como dimensionar seus MSK clusters.

  3. A latência de replicação pode variar para MSK clusters em diferentes origens e destinos AWS Pares de regiões, dependendo da distância geográfica entre os clusters. Por exemplo, a latência de replicação geralmente é menor ao replicar entre clusters nas regiões da Europa (Irlanda) e Europa (Londres) em comparação com a replicação entre clusters nas regiões da Europa (Irlanda) e Ásia-Pacífico (Sydney).

  4. Verifique se o replicador não está sendo submetido ao controle de utilização devido às cotas excessivamente agressivas definidas em seus clusters de origem ou de destino. Você pode usar a ThrottleTime métrica fornecida pelo MSK Replicator na Amazon CloudWatch para ver o tempo médio em milissegundos em que uma solicitação foi limitada pelos corretores em seu cluster de origem/destino. Se essa métrica estiver acima de 0, você deve ajustar as cotas do Kafka para reduzir o controle de utilização de modo que o replicador possa se atualizar. Consulte Gerenciando a taxa de transferência MSK do Replicator usando cotas do Kafka para obter informações sobre o gerenciamento de cotas do Kafka para o replicador.

  5. ReplicationLatency e MessageLag pode aumentar quando um AWS A região fica degradada. Usar a AWS Service Health Dashboard para verificar se há um evento de MSK serviço na região em que seu MSK cluster primário está localizado. Se houver um evento de serviço, você poderá redirecionar temporariamente as leituras e gravações da aplicação para a outra região.