Solucione los problemas de Replicator MSK - Transmisión gestionada de Amazon para Apache Kafka

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solucione los problemas de Replicator MSK

La siguiente información puede ayudarle a solucionar los problemas que pueda tener con Replicator. MSK Consulta Solucione los problemas de su clúster de Amazon MSK para obtener información sobre resolución de problemas sobre otras MSK funciones de Amazon. También puede publicar el problema en AWS re:Post.

MSKEl estado del replicador va de a CREATING FAILED

Estas son algunas de las causas más comunes de los errores en la creación MSK del replicador.

  1. Compruebe que los grupos de seguridad proporcionados para la creación del replicador en la sección del clúster de destino tengan reglas de salida que permitan el tráfico a los grupos de seguridad del clúster de destino. Además, compruebe que los grupos de seguridad del clúster de destino tengan reglas de entrada que acepten el tráfico de los grupos de seguridad que proporcione para la creación del replicador en la sección del clúster de destino. Consulte Elección del clúster de destino.

  2. Si va a crear Replicator para la replicación entre regiones, compruebe que el clúster de origen tenga activada la VPC conectividad múltiple como método de autenticación del control de IAM acceso. Consulte Conectividad MSK VPC multiprivada de Amazon en una sola región. Compruebe también que la política de clústeres esté configurada en el clúster de origen para que el MSK Replicator pueda conectarse al clúster de origen. Consulte Prepare el clúster de MSK origen de Amazon.

  3. Compruebe que el IAM rol que proporcionó durante la creación MSK del Replicator tiene los permisos necesarios para leer y escribir en los clústeres de origen y destino. Compruebe también que el IAM rol tenga permisos para escribir en los temas. Consulte Configurar los parámetros y los permisos del replicador

  4. Compruebe que la red no ACLs esté bloqueando la conexión entre el MSK replicador y los clústeres de origen y destino.

  5. Es posible que los clústeres de origen o destino no estén completamente disponibles cuando el MSK replicador intentó conectarse a ellos. Esto puede deberse a una carga excesiva, al uso del disco o al CPU uso excesivo, lo que hace que el Replicator no pueda conectarse a los intermediarios. Solucione el problema con los agentes e intente crear el replicador de nuevo.

Tras realizar las validaciones anteriores, vuelva a crear el MSK replicador.

MSKEl replicador parece atascado en el estado CREATING

A veces, la creación MSK del replicador puede tardar hasta 30 minutos. Espere 30 minutos y compruebe de nuevo el estado del replicador.

MSKReplicator no replica datos o solo replica datos parciales

Siga estos pasos para solucionar los problemas de replicación de datos.

  1. Compruebe que su Replicator no tenga ningún error de autenticación mediante la AuthError métrica proporcionada por MSK Replicator en Amazon. CloudWatch Si esta métrica es superior a 0, compruebe si la política del IAM rol que proporcionó para el replicador es válida y si no se han establecido permisos de denegación para los permisos del clúster. Según la clusterAlias dimensión, puedes identificar si el clúster de origen o de destino está experimentando errores de autenticación.

  2. Compruebe que los clústeres de origen y destino no tengan ningún problema. Es posible que el replicador no pueda conectarse al clúster de origen o destino. Esto puede deberse a demasiadas conexiones, a que el disco esté a plena capacidad o a un CPU uso elevado.

  3. Compruebe que se pueda acceder a los clústeres de origen y destino desde MSK Replicator mediante la KafkaClusterPingSuccessCount métrica de Amazon. CloudWatch Según la clusterAlias dimensión, puede identificar si el clúster de origen o de destino está experimentando errores de autenticación. Si el valor de esta métrica es 0 o no tiene ningún punto de datos, la conexión no funciona correctamente. Debe comprobar los permisos de red y IAM roles que MSK Replicator utiliza para conectarse a sus clústeres.

  4. Compruebe que su replicador no tenga errores debido a la falta de permisos de nivel de tema utilizando la métrica ReplicatorFailure de Amazon. CloudWatch Si esta métrica es superior a 0, compruebe el IAM rol que proporcionó para los permisos de nivel de tema.

  5. Compruebe que la expresión regular que proporcionó en la lista de permitidos al crear el replicador coincide con los nombres de los temas que quiere replicar. Compruebe también que los temas no se excluyan de la replicación debido a una expresión regular de la lista de denegados.

  6. Tenga en cuenta que el replicador puede tardar hasta 30 segundos en detectar y crear los nuevos temas o particiones de temas en el clúster de destino. Los mensajes generados en el tema de origen antes de que se creara el tema en el clúster de destino no se replicarán si la posición inicial del replicador es la última (opción predeterminada). Como alternativa, si desea replicar los mensajes existentes sobre sus temas en el clúster de destino, puede iniciar la replicación desde el primer desfase de las particiones de temas del clúster de origen. Consulte Configurar los parámetros y los permisos del replicador.

Las compensaciones de mensajes en el clúster de destino son diferentes a las del clúster de origen

Como parte de la replicación de datos, MSK Replicator consume los mensajes del clúster de origen y los envía al clúster de destino. Esto puede provocar que los mensajes tengan diferentes compensaciones en los clústeres de origen y de destino. Sin embargo, si activó la sincronización de las compensaciones de los grupos de consumidores durante la creación de Replicator, MSK Replicator traducirá automáticamente las compensaciones y copiará los metadatos para que, tras la conmutación por error al clúster de destino, sus consumidores puedan reanudar el procesamiento casi desde donde lo dejaron en el clúster de origen.

MSKReplicator no sincroniza las compensaciones de los grupos de consumidores o el grupo de consumidores no existe en el clúster de destino

Siga estos pasos para solucionar los problemas de replicación de metadatos.

  1. Compruebe que la replicación de datos funciona según lo previsto. Si no es así, consulte MSKReplicator no replica datos o solo replica datos parciales.

  2. Compruebe que la expresión regular que proporcionó en la lista de permitidos al crear el replicador coincide con los nombres de los grupos de consumidores que desea replicar. Compruebe también que los grupos de consumidores no se excluyan de la replicación debido a una expresión regular en la lista de rechazados.

  3. Compruebe que MSK Replicator haya creado el tema en el clúster de destino. El replicador puede tardar hasta 30 segundos en detectar y crear los nuevos temas o particiones de temas en el clúster de destino. Los mensajes generados en el tema de origen antes de que se creara el tema en el clúster de destino no se replicarán si la posición inicial del replicador es la última (opción predeterminada). Si su grupo de consumidores del clúster de origen solo ha consumido los mensajes que MSK Replicator no ha replicado, el grupo de consumidores no se replicará en el clúster de destino. Una vez que el tema se haya creado correctamente en el clúster de destino, MSK Replicator empezará a replicar los mensajes recién escritos en el clúster de origen en el clúster de destino. Una vez que su grupo de consumidores comience a leer estos mensajes de la fuente, MSK Replicator replicará automáticamente el grupo de consumidores en el clúster de destino. Como alternativa, puede iniciar la replicación desde el primer momento en las particiones de temas del clúster de origen si desea replicar los mensajes existentes sobre sus temas en el clúster de destino. Consulte Configurar los parámetros y los permisos del replicador.

nota

MSKReplicator optimiza la sincronización de las compensaciones de los grupos de consumidores para los consumidores del clúster de origen, que leen desde una posición más cercana al final de la partición de temas. Si sus grupos de consumidores están rezagados en el clúster de origen, es posible que los grupos de consumidores del grupo de destino tengan un retraso mayor en comparación con los de origen. Esto significa que, tras la conmutación por error al clúster de destino, tus consumidores volverán a procesar más mensajes duplicados. Para reducir este retraso, los consumidores del clúster de origen tendrían que ponerse al día y empezar a consumir desde el principio de la transmisión (al final de la partición del tema). A medida que sus consumidores se pongan al día, MSK Replicator reducirá automáticamente el retraso.

La latencia de replicación es alta o sigue aumentando

Estas son algunas de las causas comunes de la latencia alta de replicación.

  1. Compruebe que tiene el número correcto de particiones en los MSK clústeres de origen y destino. Tener muy pocas o demasiadas particiones puede afectar al rendimiento. Para instrucciones sobre cómo elegir el número de particiones, consulte Prácticas recomendadas para usar MSK Replicator. La siguiente tabla muestra la cantidad mínima recomendada de particiones para obtener el rendimiento deseado con MSK Replicator.

    Rendimiento y número mínimo recomendado de particiones
    Rendimiento (MB/s) El número mínimo de particiones requerido
    50 167
    100 334
    250 833
    500 1666
    1 000 3333
  2. Compruebe que tiene suficiente capacidad de lectura y escritura en los MSK clústeres de origen y destino para soportar el tráfico de replicación. MSKReplicator actúa como consumidor del clúster de origen (salida) y como productor del clúster de destino (entrada). Por lo tanto, debe aprovisionar la capacidad del clúster para admitir el tráfico de la replicación, además del resto del tráfico de los clústeres. Consulte Prácticas recomendadas para usar MSK Replicator para obtener orientación sobre el tamaño de sus clústeres. MSK

  3. La latencia de replicación puede variar para MSK los clústeres de diferentes pares de AWS regiones de origen y destino, en función de la distancia geográfica entre los clústeres y la distancia geográfica entre ellos. Por ejemplo, la latencia de la replicación suele ser menor cuando se replica entre clústeres de las regiones de Europa (Irlanda) y Europa (Londres), en comparación con la replicación entre clústeres de las regiones de Europa (Irlanda) y Asia-Pacífico (Sídney).

  4. Compruebe que el replicador no se vea limitado debido a las cuotas demasiado agresivas que se establezcan en los clústeres de origen o destino. Puedes usar la ThrottleTime métrica proporcionada por MSK Replicator en Amazon CloudWatch para ver el tiempo medio en milisegundos que los agentes de tu clúster de origen/destino retrasaron una solicitud. Si esta métrica es superior a 0, debe ajustar las cuotas de Kafka para reducir las limitaciones, para que el replicador pueda recuperarse. Consulte Administración del rendimiento de MSK Replicator mediante cuotas de Kafka para obtener información sobre la administración de las cuotas de Kafka para el replicador.

  5. ReplicationLatency y MessageLag podría aumentar cuando una región se degrada. AWS Utilice el AWS Service Health Dashboard para comprobar si hay un evento de MSK servicio en la región en la que se encuentra su MSK clúster principal. Si se produce un evento de servicio, puede redirigir temporalmente las lecturas y escrituras de la aplicación a la otra región.