El estado del Replicador MSK pasa de EN CREACIÓN a ERROR El Replicador MSK aparece atascado en el estado EN CREACIÓN El Replicador MSK no replica los datos o solo replica datos parciales Los desplazamientos de mensajes en el clúster de destino son diferentes a las del clúster de origen El Replicador MSK no sincroniza los desplazamientos de los grupos de consumidores o el grupo de consumidores no existe en el clúster de destino La latencia de replicación es alta o sigue aumentando Uso de métricas ReplicatorFailure

Solución de problemas del Replicador MSK

La siguiente información puede ayudar a solucionar los problemas que podrían presentarse con el Replicador MSK. Consulte Solución de problemas del clúster de Amazon MSK para obtener información sobre la resolución de problemas sobre otras características de Amazon MSK. También puede publicar el problema en AWS re:Post.

El estado del Replicador MSK pasa de EN CREACIÓN a ERROR

Estas son algunas de las causas más comunes de los errores en la creación del Replicador MSK.

Compruebe que los grupos de seguridad proporcionados para la creación del replicador en la sección del clúster de destino tengan reglas de salida que permitan el tráfico a los grupos de seguridad del clúster de destino. Además, compruebe que los grupos de seguridad del clúster de destino tengan reglas de entrada que acepten el tráfico de los grupos de seguridad que proporcione para la creación del replicador en la sección del clúster de destino. Consulte Elección del clúster de destino.
Si va a crear un replicador para la replicación entre regiones, compruebe que el clúster de origen tenga activada la conectividad de varias VPC para el método de autenticación del control de acceso de IAM. Consulte Conectividad privada con varias VPC de Amazon MSK en una sola región. Compruebe también que la política de clústeres esté configurada en el clúster de origen, para que el Replicador MSK pueda conectarse al clúster de origen. Consulte Preparación del clúster de origen de Amazon MSK.
Compruebe que el rol de IAM que proporcionó durante la creación del Replicador MSK tiene los permisos necesarios para leer los clústeres de origen y destino, y para escribir en estos. Compruebe también que el rol de IAM tenga permisos para escribir en los temas. Consulte Configurar los parámetros y los permisos del replicador
Compruebe que su red ACLs no bloquee la conexión entre el MSK Replicator y los clústeres de origen y destino.
Es posible que los clústeres de origen o destino no estén completamente disponibles cuando el Replicador MSK intente conectarse a ellos. Esto puede deberse a una carga, uso del disco o de la CPU excesivos, lo que hace que el replicador no pueda conectarse a los agentes. Solucione el problema con los agentes e intente crear el replicador de nuevo.

Tras hacer las validaciones anteriores, vuelva a crear el Replicador MSK.

El Replicador MSK aparece atascado en el estado EN CREACIÓN

A veces, la creación del Replicador MSK puede tardar hasta 30 minutos. Espere 30 minutos y compruebe de nuevo el estado del replicador.

El Replicador MSK no replica los datos o solo replica datos parciales

Siga estos pasos para solucionar los problemas de replicación de datos.

Compruebe que su replicador no tiene ningún error de autenticación mediante la AuthError métrica proporcionada por MSK Replicator en Amazon. CloudWatch Si esta métrica es superior a 0, compruebe si la política del rol de IAM que proporcionó para el replicador es válida y que no se hayan establecido permisos de denegación para los permisos del clúster. En función de la dimensión ClusterAlias, puede identificar si el clúster de origen o de destino presenta errores de autenticación.
Compruebe que los clústeres de origen y destino no tengan ningún problema. Es posible que el replicador no pueda conectarse al clúster de origen o destino. Esto puede ocurrir debido a que hay demasiadas conexiones, el disco está al máximo de su capacidad o hay un uso elevado de la CPU.
Compruebe que se pueda acceder a los clústeres de origen y destino desde MSK Replicator mediante la métrica de Amazon KafkaClusterPingSuccessCount . CloudWatch En función de la dimensión ClusterAlias, puede identificar si el clúster de origen o de destino presenta errores de autenticación. Si el valor de esta métrica es 0 o no tiene ningún punto de datos, la conexión no funciona correctamente. Debe comprobar los permisos de la red y del rol de IAM que utiliza el Replicador MSK para conectarse a los clústeres.
Compruebe que su replicador no tenga errores debido a la falta de permisos de nivel de tema utilizando la métrica ReplicatorFailure de Amazon. CloudWatch Si esta métrica es superior a 0, compruebe el rol de IAM que proporcionó para los permisos a nivel de tema.
Compruebe que la expresión regular que proporcionó en la lista de permitidos al crear el replicador coincide con los nombres de los temas que quiere replicar. Compruebe también que los temas no se excluyan de la replicación debido a una expresión regular de la lista de denegados.
Tenga en cuenta que el Replicador puede tardar hasta 30 segundos en detectar y crear los nuevos temas o particiones de temas en el clúster de destino. Cualquier mensaje generado en el tema de origen antes de que se creara el tema en el clúster de destino no se replicará si la posición inicial del Replicador es la última (opción predeterminada). Como alternativa, si desea replicar los mensajes existentes sobre sus temas en el clúster de destino, puede iniciar la replicación desde el primer desplazamiento de las particiones de temas del clúster de origen. Consulte Configurar los parámetros y los permisos del replicador.

Los desplazamientos de mensajes en el clúster de destino son diferentes a las del clúster de origen

Como parte de la replicación de datos, el Replicador MSK consume los mensajes del clúster de origen y los produce al clúster de destino. Esto puede provocar que los mensajes tengan diferentes desplazamientos en los clústeres de origen y destino. Sin embargo, si activó la sincronización de los desplazamientos de los grupos de consumidores durante la creación del Replicador, el Replicador MSK traducirá automáticamente los desplazamientos mientras copia los metadatos para que, tras la conmutación por error al clúster de destino, sus consumidores puedan reanudar el procesamiento casi desde donde lo dejaron en el clúster de origen.

El Replicador MSK no sincroniza los desplazamientos de los grupos de consumidores o el grupo de consumidores no existe en el clúster de destino

Siga estos pasos para solucionar los problemas de replicación de metadatos.

Compruebe que la replicación de los datos funciona según lo esperado. Si no es así, consulte El Replicador MSK no replica los datos o solo replica datos parciales.
Compruebe que la expresión regular que proporcionó en la lista de permitidos al crear el Replicador coincide con los nombres de los grupos de consumidores que quiere replicar. También compruebe que los grupos de consumidores no se excluyan de la replicación debido a una expresión regular de la lista de denegados.
Compruebe que el Replicador MSK haya creado el tema en el clúster de destino. El Replicador puede tardar hasta 30 segundos en detectar y crear los nuevos temas o particiones de temas en el clúster de destino. Cualquier mensaje generado en el tema de origen antes de que se creara el tema en el clúster de destino no se replicará si la posición inicial del Replicador es la última (opción predeterminada). Si su grupo de consumidores del clúster de origen solo ha consumido los mensajes que el Replicador MSK no ha replicado, el grupo de consumidores no se replicará en el clúster de destino. Una vez que el tema se haya creado correctamente en el clúster de destino, el Replicador MSK empezará a replicar los mensajes recién escritos en el clúster de origen al clúster de destino. Una vez que su grupo de consumidores comience a leer estos mensajes del origen, el Replicador MSK replicará automáticamente el grupo de consumidores en el clúster de destino. Como alternativa, si desea replicar los mensajes existentes sobre sus temas en el clúster de destino, puede iniciar la replicación desde el primer desplazamiento de las particiones de temas del clúster de origen. Consulte Configurar los parámetros y los permisos del replicador.

nota

El Replicador MSK optimiza la sincronización de los desplazamientos de los grupos de consumidores para los consumidores del clúster de origen, que leen desde una posición más cercana al final de la partición de temas. Si sus grupos de consumidores están rezagados en el clúster de origen, es posible que los grupos de consumidores del grupo de destino tengan un mayor retraso en comparación con los de origen. Esto significa que, tras la conmutación por error al clúster de destino, sus consumidores volverán a procesar más mensajes duplicados. Para reducir este retraso, los consumidores del clúster de origen tendrían que ponerse al día y empezar a consumir desde la punta de la transmisión (al final de la partición del tema). A medida que sus consumidores se pongan al día, el Replicador MSK reducirá automáticamente el retraso.

La latencia de replicación es alta o sigue aumentando

Estas son algunas de las causas comunes de la latencia alta de replicación.

Compruebe que tiene el número correcto de particiones en los clústeres de MSK de origen y destino. Tener muy pocas o demasiadas particiones puede afectar al rendimiento. Para instrucciones sobre cómo elegir el número de particiones, consulte Prácticas recomendadas para utilizar el Replicador MSK. La tabla siguiente muestra el número mínimo de particiones recomendado para obtener el rendimiento deseado con el Replicador MSK.

Rendimiento y número mínimo recomendado de particiones
Rendimiento (MB/s)	El número mínimo de particiones requerido
50	167
100	334
250	833
500	1666
1 000	3333

Compruebe que los clústeres de MSK de origen y destino tienen suficiente capacidad de lectura y escritura para admitir el tráfico de la replicación. El Replicador MSK actúa como consumidor del clúster de origen (salida) y como productor del clúster de destino (entrada). Por lo tanto, debe aprovisionar la capacidad del clúster para admitir el tráfico de la replicación, además del resto del tráfico de los clústeres. Consulte Prácticas recomendadas para utilizar el Replicador MSK para obtener orientación sobre el tamaño de los clústeres de MSK.
La latencia de replicación puede variar para los clústeres de MSK en diferentes pares de AWS regiones de origen y destino, en función de la distancia geográfica entre los clústeres. Por ejemplo, la latencia de la replicación suele ser menor cuando se replica entre clústeres de las regiones de Europa (Irlanda) y Europa (Londres), en comparación con la replicación entre clústeres de las regiones de Europa (Irlanda) y Asia-Pacífico (Sídney).
Compruebe que el replicador no se vea limitado debido a las cuotas demasiado agresivas que se establezcan en los clústeres de origen o destino. Puedes usar la ThrottleTime métrica proporcionada por MSK Replicator en Amazon CloudWatch para ver el tiempo medio en milisegundos que los agentes de tu clúster han limitado una solicitud. source/target Si esta métrica es superior a 0, debe ajustar las cuotas de Kafka para reducir las limitaciones, para que el replicador pueda recuperarse. Consulte Administración del rendimiento del Replicador MSK mediante cuotas de Kafka para obtener información sobre la administración de las cuotas de Kafka para el replicador.
ReplicationLatency y MessageLag podría aumentar cuando una AWS región se degrada. Use el Panel de estado de servicio de AWS para comprobar si hay un evento de servicio de MSK en la región en la que se encuentra el clúster principal de MSK. Si se produce un evento de servicio, puede redirigir temporalmente las lecturas y escrituras de la aplicación a la otra región.

Solución de problemas de errores de MSK Replicator mediante métricas ReplicatorFailure

La ReplicatorFailure métrica le ayuda a monitorear y detectar problemas de replicación en MSK Replicator. Un valor distinto de cero en esta métrica normalmente indica un problema de fallo de replicación, que se puede deber a los siguientes factores:

Limitaciones del tamaño de los mensajes
Infracciones del rango de marcas de tiempo
Problemas con el tamaño de los lotes de registros

Si la ReplicatorFailure métrica indica un valor distinto de cero, siga estos pasos para solucionar el problema.

nota

Para obtener más información sobre esta métrica, consulte Métricas del Replicador MSK.

Configure un cliente que se pueda conectar al clúster de MSK de destino y que tenga instaladas las herramientas de la CLI de Apache Kafka. Para obtener información sobre cómo configurar el cliente y la herramienta de la CLI de Kafka, consulte Conexión a un clúster de Amazon MSK aprovisionado.
¿Abrir la consola Amazon MSK en https://console.aws.amazon.com/msk/casa? region=us-east-1#/home/.

A continuación, proceda del modo siguiente:
1. Obtenga el MSK Replicator y el clúster de MSK de destino ARNs .
2. Obtenga los puntos de conexión de los agentes del clúster de MSK de destino. Utilizará estos puntos de conexión en los pasos siguientes.
Ejecute los siguientes comandos para exportar el ARN del Replicador de MSK y los puntos de conexión de los agentes que obtuvo en el paso anterior.

Asegúrese de reemplazar los valores de marcador de posición de < ReplicatorARN >, < > y < BootstrapServerString ConsumerConfigFile > utilizados en los siguientes ejemplos por sus valores reales.
```
export TARGET_CLUSTER_SERVER_STRING=<BootstrapServerString>
```
```
export REPLICATOR_ARN=<ReplicatorARN>
```
```
export CONSUMER_CONFIG_FILE=<ConsumerConfigFile>
```

En el directorio <path-to-your-kafka-installation>/bin, realice lo siguiente:

Guarde el siguiente script y asígnele el nombre query-replicator-failure-message.sh.


#!/bin/bash

# Script: Query MSK Replicator Failure Message
# Description: This script queries exceptions from AWS MSK Replicator status topics
# It takes a replicator ARN and bootstrap server as input and searches for replicator exceptions
# in the replicator's status topic, formatting and displaying them in a readable manner
#
# Required Arguments:
#   --replicator-arn: The ARN of the AWS MSK Replicator
#   --bootstrap-server: The Kafka bootstrap server to connect to
#   --consumer.config: Consumer config properties file
# Usage Example:
#   ./query-replicator-failure-message.sh ./query-replicator-failure-message.sh --replicator-arn <replicator-arn> --bootstrap-server <bootstrap-server> --consumer.config <consumer.config>

print_usage() {
  echo "USAGE: $0 ./query-replicator-failure-message.sh --replicator-arn <replicator-arn> --bootstrap-server <bootstrap-server> --consumer.config <consumer.config>"
  echo "--replicator-arn <String: MSK Replicator ARN>      REQUIRED: The ARN of AWS MSK Replicator."
  echo "--bootstrap-server <String: server to connect to>  REQUIRED: The Kafka server to connect to."
  echo "--consumer.config <String: config file>            REQUIRED: Consumer config properties file."
  exit 1
}

# Initialize variables
replicator_arn=""
bootstrap_server=""
consumer_config=""

# Parse arguments
while [[ $# -gt 0 ]]; do
  case "$1" in
    --replicator-arn)
      if [ -z "$2" ]; then
        echo "Error: --replicator-arn requires an argument."
        print_usage
      fi
      replicator_arn="$2"; shift 2 ;;
    --bootstrap-server)
      if [ -z "$2" ]; then
        echo "Error: --bootstrap-server requires an argument."
        print_usage
      fi
      bootstrap_server="$2"; shift 2 ;;
    --consumer.config)
      if [ -z "$2" ]; then
        echo "Error: --consumer.config requires an argument."
        print_usage
      fi
      consumer_config="$2"; shift 2 ;;
    *) echo "Unknown option: $1"; print_usage ;;
  esac
done

# Check for required arguments
if [ -z "$replicator_arn" ] || [ -z "$bootstrap_server" ] || [ -z "$consumer_config" ]; then
  echo "Error: --replicator-arn, --bootstrap-server, and --consumer.config are required."
  print_usage
fi

# Extract replicator name and suffix from ARN
replicator_arn_suffix=$(echo "$replicator_arn" | awk -F'/' '{print $NF}')
replicator_name=$(echo "$replicator_arn" | awk -F'/' '{print $(NF-1)}')
echo "Replicator name: $replicator_name"

# List topics and find the status topic
topics=$(./kafka-topics.sh --command-config client.properties --list --bootstrap-server "$bootstrap_server")
status_topic_name="__amazon_msk_replicator_status_${replicator_name}_${replicator_arn_suffix}"

# Check if the status topic exists
if echo "$topics" | grep -Fq "$status_topic_name"; then
  echo "Found replicator status topic: '$status_topic_name'"
  ./kafka-console-consumer.sh --bootstrap-server "$bootstrap_server" --consumer.config "$consumer_config" --topic "$status_topic_name" --from-beginning | stdbuf -oL grep "Exception" | stdbuf -oL sed -n 's/.*Exception:\(.*\) Topic: \([^,]*\), Partition: \([^\]*\).*/ReplicatorException:\1 Topic: \2, Partition: \3/p'
else
  echo "No topic matching the pattern '$status_topic_name' found."
fi

Ejecute este script para consultar los mensajes de error del Replicador de MSK.
```
<path-to-your-kafka-installation>/bin/query-replicator-failure-message.sh --replicator-arn $REPLICATOR_ARN --bootstrap-server $TARGET_CLUSTER_SERVER_STRING --consumer.config $CONSUMER_CONFIG_FILE
```
Este script muestra todos los errores junto con sus mensajes de excepción y las particiones de temas afectadas. Puede utilizar esta información de excepción para mitigar los errores, tal como se describe en Errores comunes del Replicador de MSK y sus soluciones. Dado que el tema contiene todos los mensajes históricos de error, inicie la investigación con el último mensaje. Lo siguiente es un ejemplo de un mensaje de error.
```
ReplicatorException: The request included a message larger than the max message size the server will accept. Topic: test, Partition: 1
```

Errores comunes del Replicador de MSK y sus soluciones

La siguiente lista describe algunos de los errores del Replicador de MSK que podría experimentar y cómo mitigarlos.

Tamaño del mensaje mayor que max.request.size

Causa

Este error se produce cuando el Replicador de MSK no logra replicar datos porque el tamaño del mensaje individual supera los 10 MB. De forma predeterminada, el Replicador de MSK replica mensajes de hasta 10 MB de tamaño.

Lo siguiente es un ejemplo de este tipo de mensaje de error.


ReplicatorException: The message is 20635370 bytes when serialized which is larger than 10485760, which is the value of the max.request.size configuration. Topic: test, Partition: 1

Solución

Reduzca el tamaño de los mensajes individuales en el tema. Si no puede hacerlo, siga estas instrucciones para solicitar un aumento del límite.

Tamaño del mensaje mayor que el tamaño máximo de mensaje que el servidor acepta

Causa

Este error se produce cuando el tamaño del mensaje supera el tamaño máximo de mensaje permitido por el clúster de destino.

Lo siguiente es un ejemplo de este tipo de mensaje de error.


ReplicatorException: The request included a message larger than the max message size the server will accept. Topic: test, Partition: 1

Solución

Aumente la configuración de max.message.bytes en el clúster de destino o en el tema correspondiente del clúster de destino. Establezca la configuración max.message.bytes del clúster de destino para que coincida con el tamaño máximo de mensaje sin comprimir. Para obtener información sobre cómo hacerlo, consulte max.message.bytes.

La marca de tiempo está fuera del intervalo

Causa

Este fallo se produce porque la marca de tiempo del mensaje individual se encuentra fuera del intervalo permitido por el clúster de destino.

Lo siguiente es un ejemplo de este tipo de mensaje de error.


ReplicatorException: Timestamp 1730137653724 of message with offset 0 is out of range. The timestamp should be within [1730137892239, 1731347492239] Topic: test, Partition: 1

Solución

Actualice la configuración message.timestamp.before.max.ms del clúster de destino para permitir mensajes con marcas de tiempo más antiguas. Para obtener información sobre cómo hacerlo, consulte message.timestamp.before.max.ms.

Lote de registros demasiado grande

Causa

Este error se produce porque el tamaño del lote de registros supera el tamaño del segmento configurado para el tema en el clúster de destino. El Replicador de MSK admite un tamaño máximo de lote de 1 MB.

Lo siguiente es un ejemplo de este tipo de mensaje de error.


ReplicatorException: The request included message batch larger than the configured segment size on the server. Topic: test, Partition: 1

Solución

La configuración segment.bytes del clúster de destino debe ser, como mínimo, igual al tamaño del lote (1 MB) para que el Replicador de MSK pueda continuar sin errores. Actualice el valor de segment.bytes del clúster de destino a, como mínimo, 1048576 (1 MB). Para obtener información sobre cómo hacerlo, consulte segment.bytes.

nota

Si la ReplicatorFailure métrica sigue emitiendo valores distintos de cero después de aplicar estas soluciones, repita el proceso de solución de problemas hasta que la métrica emita un valor de cero.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Migre de MirrorMaker 2 autogestionado a MSK Replicator

Prácticas recomendadas para utilizar el Replicador MSK