L'état du réplicateur MSK passe de CREATING à FAILED Le réplicateur MSK semble bloqué dans l'état CREATING Le réplicateur MSK ne réplique pas les données ou ne réplique que des données partielles Les décalages de messages dans le cluster cible sont différents de ceux du cluster source MSK Replicator ne synchronise pas les groupes de consommateurs, les offsets ou le groupe de consommateurs n'existe pas sur le cluster cible.La latence de réplication est élevée ou continue d'augmenter Utilisation de la ReplicatorFailure métrique

Résoudre les problèmes liés à MSK Replicator

La documentation suivante peut vous aider à résoudre les problèmes que vous pouvez rencontrer avec le réplicateur MSK. Consultez Résoudre les problèmes liés à votre cluster Amazon MSK les informations relatives à la résolution des problèmes concernant les autres fonctionnalités d'Amazon MSK. Vous pouvez également publier votre problème sur AWS re:Post.

L'état du réplicateur MSK passe de CREATING à FAILED

Les raisons courantes suivantes expliquent l'échec de création du réplicateur MSK.

Vérifiez que les groupes de sécurité que vous avez fourni pour la création du réplicateur dans la section du cluster cible comportent des règles de sortie autorisant le trafic vers les groupes de sécurité de votre cluster cible. Vérifiez également que les groupes de sécurité de votre cluster cible comportent des règles entrantes qui autorisent le trafic des groupes de sécurité que vous avez fournis pour la création du réplicateur dans la section du cluster cible. Consultez Choisissez votre cluster cible.
Si vous créez un réplicateur pour la réplication entre régions, vérifiez que la connectivité multi-VPC de votre cluster source est activée pour la méthode d'authentification du contrôle d'accès IAM. Consultez Connectivité privée à plusieurs VPC Amazon MSK dans une seule région. Vérifiez également que la politique de cluster est configurée sur le cluster source afin que le réplicateur MSK puisse se connecter au cluster source. Consultez Préparez le cluster source Amazon MSK.
Vérifiez que le rôle IAM que vous avez fourni lors de la création du réplicateur MSK dispose des autorisations requises pour lire et écrire sur vos clusters source et cible. Vérifiez également que le rôle IAM dispose des autorisations nécessaires pour écrire dans les rubriques. Consultez Configurez les paramètres et les autorisations du réplicateur
Vérifiez que votre réseau ACLs ne bloque pas la connexion entre le MSK Replicator et vos clusters source et cible.
Il est possible que les clusters source ou cible ne soient pas entièrement disponibles lorsque le réplicateur MSK a essayé de s'y connecter. Cela peut être dû à une charge excessive, à une utilisation du disque ou du processeur, ce qui empêche le réplicateur de se connecter aux agents. Corrigez le problème avec les agents et réessayez de créer un réplicateur.

Après avoir effectué les validations ci-dessus, créez à nouveau le réplicateur MSK.

Le réplicateur MSK semble bloqué dans l'état CREATING

Parfois, la création du réplicateur MSK peut prendre jusqu'à 30 minutes. Attendez 30 minutes et vérifiez à nouveau l'état du réplicateur.

Le réplicateur MSK ne réplique pas les données ou ne réplique que des données partielles

Suivez ces étapes pour résoudre les problèmes de réplication des données.

Vérifiez que votre réplicateur ne rencontre aucune erreur d'authentification à l'aide de la AuthError métrique fournie par MSK Replicator sur Amazon. CloudWatch Si cette métrique est supérieure à 0, vérifiez si la politique du rôle IAM fourni pour le réplicateur est valide et qu'aucune autorisation de refus n'est définie pour les autorisations du cluster. Sur la base de la dimension clusterAlias, vous pouvez identifier si le cluster source ou cible rencontre des erreurs d'authentification.
Vérifiez que vos clusters source et cible ne rencontrent aucun problème. Il est possible que le réplicateur ne soit pas en mesure de se connecter à votre cluster source ou cible. Cela peut être dû à un trop grand nombre de connexions, à une capacité maximale du disque ou à une utilisation élevée du processeur.
Vérifiez que vos clusters source et cible sont accessibles depuis MSK Replicator à l'aide de la KafkaClusterPingSuccessCount métrique d'Amazon. CloudWatch Sur la base de la dimension clusterAlias, vous pouvez identifier si le cluster source ou cible rencontre des erreurs d'authentification. Si la valeur est égale à 0 ou aucun point de données, la connexion n'est pas saine. Vous devez vérifier les autorisations réseau et de rôle IAM utilisées par le réplicateur MSK pour se connecter à vos clusters.
Vérifiez que votre réplicateur ne rencontre aucune défaillance en raison de l'absence d'autorisations thématiques à l'aide de la métrique d'Amazon ReplicatorFailure . CloudWatch Si cette métrique est supérieure à 0, vérifiez le rôle IAM que vous avez fourni pour les autorisations au niveau de la rubrique.
Vérifiez que l'expression régulière que vous avez fournie dans la liste d'autorisation lors de la création du réplicateur correspond aux noms des rubriques que vous souhaitez répliquer. Vérifiez également que les rubriques ne sont pas exclues de la réplication en raison d'une expression régulière présente dans la liste de refus.
Notez que le réplicateur peut prendre jusqu'à 30 secondes pour détecter et créer les nouveaux sujets ou partitions de sujets sur le cluster cible. Les messages envoyés au sujet source avant sa création sur le cluster cible ne seront pas répliqués si la position de départ du réplicateur est la plus récente (par défaut). Vous pouvez également démarrer la réplication à partir du premier décalage dans les partitions des rubriques du cluster source si vous souhaitez répliquer les messages existants relatifs à vos sujets sur le cluster cible. Consultez Configurez les paramètres et les autorisations du réplicateur.

Les décalages de messages dans le cluster cible sont différents de ceux du cluster source

Dans le cadre de la réplication des données, MSK Replicator consomme les messages du cluster source et les transmet au cluster cible. Cela peut entraîner des messages présentant des décalages différents sur vos clusters source et cible. Toutefois, si vous avez activé la synchronisation des offsets des groupes de consommateurs lors de la création du réplicateur, MSK Replicator traduira automatiquement les décalages lors de la copie des métadonnées afin qu'après avoir basculé vers le cluster cible, vos clients puissent reprendre le traitement là où ils s'étaient arrêtés dans le cluster source.

MSK Replicator ne synchronise pas les groupes de consommateurs, les offsets ou le groupe de consommateurs n'existe pas sur le cluster cible.

Suivez ces étapes pour résoudre les problèmes de réplication des métadonnées.

Vérifiez que la réplication de vos données fonctionne comme prévu. Si ce n’est pas le cas, voyez Le réplicateur MSK ne réplique pas les données ou ne réplique que des données partielles.
Vérifiez que l'expression régulière que vous avez fournie dans la liste d'autorisation lors de la création du réplicateur correspond aux noms des groupes de consommateurs que vous souhaitez répliquer. Vérifiez également que les groupes de consommateurs ne sont pas exclus de la réplication en raison d'une expression régulière dans la liste de refus.
Vérifiez que MSK Replicator a créé le sujet sur le cluster cible. Le réplicateur peut prendre jusqu'à 30 secondes pour détecter et créer les nouveaux sujets ou partitions de sujets sur le cluster cible. Les messages envoyés au sujet source avant sa création sur le cluster cible ne seront pas répliqués si la position de départ du réplicateur est la plus récente (par défaut). Si votre groupe de consommateurs du cluster source n'a consommé que les messages qui n'ont pas été répliqués par MSK Replicator, le groupe de consommateurs ne sera pas répliqué vers le cluster cible. Une fois le sujet créé avec succès sur le cluster cible, MSK Replicator commence à répliquer les messages récemment écrits sur le cluster source vers la cible. Une fois que votre groupe de consommateurs commence à lire ces messages depuis la source, MSK Replicator répliquera automatiquement le groupe de consommateurs vers le cluster cible. Vous pouvez également démarrer la réplication à partir du premier décalage dans les partitions des rubriques du cluster source si vous souhaitez répliquer les messages existants relatifs à vos sujets sur le cluster cible. Consultez Configurez les paramètres et les autorisations du réplicateur.

Note

MSK Replicator optimise la synchronisation des décalages des groupes de consommateurs pour vos clients du cluster source qui lisent à une position plus proche de la fin de la partition thématique. Si vos groupes de consommateurs sont en retard sur le cluster source, vous constaterez peut-être un retard plus important pour ces groupes de consommateurs sur le cluster cible par rapport à la source. Cela signifie qu'après le basculement vers le cluster cible, vos clients retraiteront un plus grand nombre de messages dupliqués. Pour réduire ce décalage, vos clients du cluster source devraient rattraper leur retard et commencer à consommer dès le début du stream (fin de la partition thématique). Au fur et à mesure que vos clients rattrapent leur retard, MSK Replicator réduira automatiquement le décalage.

La latence de réplication est élevée ou continue d'augmenter

Les raisons courantes suivantes expliquent une latence de réplication élevée.

Vérifiez que vous disposez du bon nombre de partitions sur vos clusters MSK source et cible. Le fait d'avoir trop peu ou trop de partitions peut avoir un impact sur les performances. Pour obtenir des conseils sur le choix du nombre de partitions, reportez-vous à la section Bonnes pratiques pour l'utilisation du réplicateur MSK. Le tableau suivant indique le nombre minimum de partitions recommandé pour obtenir le débit souhaité avec le réplicateur MSK.

Débit et nombre minimal de partitions recommandé
Débit (Mo/s)	Nombre minimal de partitions requis
50	167
100	334
250	833
500	1666
1 000	3333

Vérifiez que vous disposez d'une capacité de lecture et d'écriture suffisante dans vos clusters MSK source et cible pour prendre en charge le trafic de réplication. Le réplicateur MSK agit en tant que consommateur pour votre cluster source (sortie) et en tant que producteur pour votre cluster cible (entrée). Par conséquent, vous devez prévoir une capacité de cluster pour prendre en charge le trafic de réplication en plus du reste du trafic sur vos clusters. Pour obtenir des conseils sur le dimensionnement correct de votre cluster, consultez Bonnes pratiques pour l'utilisation du réplicateur MSK.
La latence de réplication peut varier pour les clusters MSK dans différentes paires de AWS régions source et de destination, en fonction de la distance géographique entre les clusters. Par exemple, la latence de réplication est généralement inférieure lors de la réplication entre clusters des régions Europe (Irlande) et Europe (Londres) par rapport à la réplication entre clusters des régions Europe (Irlande) et Asie-Pacifique (Sydney).
Vérifiez que votre réplicateur n'est pas limité en raison de quotas trop agressifs définis sur vos clusters source ou cible. Vous pouvez utiliser la ThrottleTime métrique fournie par MSK Replicator sur Amazon CloudWatch pour connaître le temps moyen en millisecondes pendant lequel une demande a été limitée par les courtiers de votre cluster. source/target Si cette métrique est supérieure à 0, vous devez ajuster les quotas de Kafka pour réduire la limitation afin que le réplicateur puisse rattraper son retard. Consultez Gestion du débit du réplicateur MSK à l'aide des quotas de Kafka pour plus d'informations sur la gestion des quotas de Kafka pour le réplicateur.
ReplicationLatency et MessageLag peut augmenter lorsqu'une AWS région se dégrade. Utilisez le Tableau de bord de l'état des services AWS pour vérifier la présence d'un événement de service MSK dans la région où se trouve votre cluster MSK principal. En cas d'événement de service, vous pouvez rediriger temporairement les opérations de lecture et d'écriture de votre application dans l'autre région.

Résolution des défaillances de MSK Replicator à l'aide de métriques ReplicatorFailure

La ReplicatorFailure métrique vous aide à surveiller et à détecter les problèmes de réplication dans MSK Replicator. Une valeur différente de zéro de cette métrique indique généralement un problème d'échec de réplication, qui peut être dû aux facteurs suivants :

limites de taille des messages
violations de la plage d'horodatage
problèmes de taille de lot d'enregistrements

Si la ReplicatorFailure métrique indique une valeur différente de zéro, procédez comme suit pour résoudre le problème.

Note

Pour plus d’informations sur cette métrique, consultez Métriques du réplicateur MSK.

Configurez un client capable de se connecter au cluster MSK cible et doté des outils de la CLI Apache Kafka. Pour plus d'informations sur la configuration du client et de l'outil Kafka CLI, consultezConnectez-vous à un cluster Amazon MSK Provisioned.
Vous voulez ouvrir la console Amazon MSK https://console.aws.amazon.com/msk/chez vous ? region=us-east-1#/home/.

Ensuite, procédez comme suit :
1. Obtenez le ARNs MSK Replicator et le cluster MSK cible.
2. Obtenez les points de terminaison du broker du cluster MSK cible. Vous allez utiliser ces points de terminaison dans les étapes suivantes.
Exécutez les commandes suivantes pour exporter l'ARN MSK Replicator et les points de terminaison du broker que vous avez obtenus à l'étape précédente.

Assurez-vous de remplacer les valeurs d'espace réservé pour < ReplicatorARN >, < BootstrapServerString > et < ConsumerConfigFile > utilisées dans les exemples suivants par leurs valeurs réelles.
```
export TARGET_CLUSTER_SERVER_STRING=<BootstrapServerString>
```
```
export REPLICATOR_ARN=<ReplicatorARN>
```
```
export CONSUMER_CONFIG_FILE=<ConsumerConfigFile>
```

Dans votre <path-to-your-kafka-installation>/bin répertoire, procédez comme suit :

Enregistrez le script suivant et nommez-lequery-replicator-failure-message.sh.


#!/bin/bash

# Script: Query MSK Replicator Failure Message
# Description: This script queries exceptions from AWS MSK Replicator status topics
# It takes a replicator ARN and bootstrap server as input and searches for replicator exceptions
# in the replicator's status topic, formatting and displaying them in a readable manner
#
# Required Arguments:
#   --replicator-arn: The ARN of the AWS MSK Replicator
#   --bootstrap-server: The Kafka bootstrap server to connect to
#   --consumer.config: Consumer config properties file
# Usage Example:
#   ./query-replicator-failure-message.sh ./query-replicator-failure-message.sh --replicator-arn <replicator-arn> --bootstrap-server <bootstrap-server> --consumer.config <consumer.config>

print_usage() {
  echo "USAGE: $0 ./query-replicator-failure-message.sh --replicator-arn <replicator-arn> --bootstrap-server <bootstrap-server> --consumer.config <consumer.config>"
  echo "--replicator-arn <String: MSK Replicator ARN>      REQUIRED: The ARN of AWS MSK Replicator."
  echo "--bootstrap-server <String: server to connect to>  REQUIRED: The Kafka server to connect to."
  echo "--consumer.config <String: config file>            REQUIRED: Consumer config properties file."
  exit 1
}

# Initialize variables
replicator_arn=""
bootstrap_server=""
consumer_config=""

# Parse arguments
while [[ $# -gt 0 ]]; do
  case "$1" in
    --replicator-arn)
      if [ -z "$2" ]; then
        echo "Error: --replicator-arn requires an argument."
        print_usage
      fi
      replicator_arn="$2"; shift 2 ;;
    --bootstrap-server)
      if [ -z "$2" ]; then
        echo "Error: --bootstrap-server requires an argument."
        print_usage
      fi
      bootstrap_server="$2"; shift 2 ;;
    --consumer.config)
      if [ -z "$2" ]; then
        echo "Error: --consumer.config requires an argument."
        print_usage
      fi
      consumer_config="$2"; shift 2 ;;
    *) echo "Unknown option: $1"; print_usage ;;
  esac
done

# Check for required arguments
if [ -z "$replicator_arn" ] || [ -z "$bootstrap_server" ] || [ -z "$consumer_config" ]; then
  echo "Error: --replicator-arn, --bootstrap-server, and --consumer.config are required."
  print_usage
fi

# Extract replicator name and suffix from ARN
replicator_arn_suffix=$(echo "$replicator_arn" | awk -F'/' '{print $NF}')
replicator_name=$(echo "$replicator_arn" | awk -F'/' '{print $(NF-1)}')
echo "Replicator name: $replicator_name"

# List topics and find the status topic
topics=$(./kafka-topics.sh --command-config client.properties --list --bootstrap-server "$bootstrap_server")
status_topic_name="__amazon_msk_replicator_status_${replicator_name}_${replicator_arn_suffix}"

# Check if the status topic exists
if echo "$topics" | grep -Fq "$status_topic_name"; then
  echo "Found replicator status topic: '$status_topic_name'"
  ./kafka-console-consumer.sh --bootstrap-server "$bootstrap_server" --consumer.config "$consumer_config" --topic "$status_topic_name" --from-beginning | stdbuf -oL grep "Exception" | stdbuf -oL sed -n 's/.*Exception:\(.*\) Topic: \([^,]*\), Partition: \([^\]*\).*/ReplicatorException:\1 Topic: \2, Partition: \3/p'
else
  echo "No topic matching the pattern '$status_topic_name' found."
fi

Exécutez ce script pour interroger les messages d'échec du MSK Replicator.
```
<path-to-your-kafka-installation>/bin/query-replicator-failure-message.sh --replicator-arn $REPLICATOR_ARN --bootstrap-server $TARGET_CLUSTER_SERVER_STRING --consumer.config $CONSUMER_CONFIG_FILE
```
Ce script affiche toutes les erreurs avec leurs messages d'exception et les partitions thématiques concernées. Vous pouvez utiliser ces informations d'exception pour atténuer les défaillances, comme décrit dansDéfaillances courantes du réplicateur MSK et leurs solutions. Dans la mesure où la rubrique contient tous les messages d'échec historiques, lancez l'enquête en utilisant le dernier message. Voici un exemple de message d'échec.
```
ReplicatorException: The request included a message larger than the max message size the server will accept. Topic: test, Partition: 1
```

Défaillances courantes du réplicateur MSK et leurs solutions

La liste suivante décrit certaines des défaillances de MSK Replicator que vous pourriez rencontrer et comment les atténuer.

Taille du message supérieure à max.request.size

Cause

Cet échec se produit lorsque le MSK Replicator ne parvient pas à répliquer les données parce que la taille de chaque message dépasse 10 Mo. Par défaut, MSK Replicator réplique les messages d'une taille maximale de 10 Mo.

Voici un exemple de ce type de message d'échec.


ReplicatorException: The message is 20635370 bytes when serialized which is larger than 10485760, which is the value of the max.request.size configuration. Topic: test, Partition: 1

Solution

Réduisez la taille des messages individuels dans votre sujet. Si vous n'êtes pas en mesure de le faire, suivez ces instructions pour demander une augmentation de limite.

Taille du message supérieure à la taille maximale des messages que le serveur acceptera

Cause

Cet échec se produit lorsque la taille du message dépasse la taille de message maximale du cluster cible.

Voici un exemple de ce type de message d'échec.


ReplicatorException: The request included a message larger than the max message size the server will accept. Topic: test, Partition: 1

Solution

Augmentez la max.message.bytes configuration sur le cluster cible ou sur la rubrique correspondante du cluster cible. Définissez la max.message.bytes configuration du cluster cible pour qu'elle corresponde à la taille de votre message non compressé le plus important. Pour plus d'informations à ce sujet, consultez max.message.bytes.

L'horodatage est hors de portée

Cause

Cet échec se produit parce que l'horodatage du message individuel se situe en dehors de la plage autorisée du cluster cible.

Voici un exemple de ce type de message d'échec.


ReplicatorException: Timestamp 1730137653724 of message with offset 0 is out of range. The timestamp should be within [1730137892239, 1731347492239] Topic: test, Partition: 1

Solution

Mettez à jour la message.timestamp.before.max.ms configuration du cluster cible pour autoriser les messages avec des horodatages plus anciens. Pour plus d'informations à ce sujet, consultez message.timestamp.before.max.ms.

Le lot d'enregistrements est trop volumineux

Cause

Cet échec se produit parce que la taille du lot d'enregistrements dépasse la taille de segment définie pour le sujet sur le cluster cible. MSK Replicator prend en charge une taille de lot maximale de 1 Mo.

Voici un exemple de ce type de message d'échec.


ReplicatorException: The request included message batch larger than the configured segment size on the server. Topic: test, Partition: 1

Solution

La configuration segment.bytes du cluster cible doit être au moins aussi grande que la taille du lot (1 Mo) pour que Replicator fonctionne sans erreur. Mettez à jour le segment.bytes du cluster cible pour qu'il soit d'au moins 1048576 (1 Mo). Pour plus d'informations à ce sujet, consultez segment.bytes.

Note

Si la ReplicatorFailure métrique continue d'émettre des valeurs différentes de zéro après avoir appliqué ces solutions, répétez le processus de dépannage jusqu'à ce que la métrique émette une valeur nulle.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Migrer de l'autogéré MirrorMaker 2 vers MSK Replicator

Bonnes pratiques pour l'utilisation du réplicateur MSK