

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Surveiller un cluster provisionné Amazon MSK
<a name="monitoring"></a>

Amazon MSK vous aide à surveiller l'état de votre cluster Amazon MSK Provisioned de plusieurs manières.
+ Amazon MSK collecte les métriques d'Apache Kafka et les envoie à Amazon CloudWatch où vous pouvez les consulter. Pour de plus amples informations sur les métriques Apache Kafka, y compris celles qu'Amazon MSK révèle, consultez [Surveillance](http://kafka.apache.org/documentation/#monitoring) dans la documentation Apache Kafka.
+ Vous pouvez également surveiller votre cluster MSK avec Prometheus, une application de surveillance open-source. Pour plus d'informations sur Prometheus, consultez [Présentation](https://prometheus.io/docs/introduction/overview/) dans la documentation Prometheus. Pour savoir comment surveiller votre cluster MSK provisioned avec Prometheus, consultez. [Surveillez un cluster provisionné MSK avec Prometheus](open-monitoring.md)
+ (Brokers standard uniquement) Amazon MSK vous aide à surveiller votre capacité de stockage sur disque en vous envoyant automatiquement des alertes de capacité de stockage lorsqu'un cluster provisionné est sur le point d'atteindre sa limite de capacité de stockage. Les alertes fournissent également des recommandations sur les mesures à prendre pour résoudre les problèmes détectés. Vous pouvez ainsi identifier et résoudre rapidement les problèmes de capacité du disque avant qu’ils ne deviennent critiques. Amazon MSK envoie automatiquement ces alertes à la [console Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), à Tableau de bord Health Amazon EventBridge et aux contacts e-mail associés à votre AWS compte. Pour plus d’informations sur les alertes relatives à la capacité de stockage, consultez [Utiliser les alertes de capacité de stockage Amazon MSK](cluster-alerts.md).

**Topics**
+ [Consultez les métriques Amazon MSK à l'aide de CloudWatch](cloudwatch-metrics.md)
+ [Mesures Amazon MSK pour le suivi des courtiers standard avec CloudWatch](metrics-details.md)
+ [Mesures Amazon MSK pour le suivi des courtiers Express avec CloudWatch](metrics-details-express.md)
+ [Surveillez un cluster provisionné MSK avec Prometheus](open-monitoring.md)
+ [Surveillez les retards des consommateurs](consumer-lag.md)
+ [Utiliser les alertes de capacité de stockage Amazon MSK](cluster-alerts.md)

# Consultez les métriques Amazon MSK à l'aide de CloudWatch
<a name="cloudwatch-metrics"></a>

Vous pouvez surveiller les métriques pour Amazon MSK à l'aide de la CloudWatch console, de la ligne de commande ou de l' CloudWatch API. Les procédures suivantes vous montrent comment accéder aux métriques à l'aide de ces différentes méthodes. 

**Pour accéder aux métriques à l'aide de la CloudWatch console**

Connectez-vous à la CloudWatch console AWS Management Console et ouvrez-la à l'adresse [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. Dans le panneau de navigation, sélectionnez ‎**Métriques**.

1. Choisissez l'onglet **Toutes les métriques**, puis **AWS/Kafka**.

1. Pour afficher les métriques au niveau de la rubrique, choisissez **Rubrique, ID de broker, Nom du cluster** ; pour les métriques au niveau du broker, choisissez **ID de broker, Nom du cluster** ; et pour les métriques au niveau du cluster, choisissez **Nom du cluster**.

1. (Facultatif) Dans le volet graphique, sélectionnez une statistique et une période, puis créez une CloudWatch alarme à l'aide de ces paramètres.

**Pour accéder aux métriques à l'aide du AWS CLI**  
Utilisez les [métriques et [get-metric-statistics](https://docs.aws.amazon.com/cli/latest/reference/cloudwatch/get-metric-statistics.html)les commandes de liste](https://docs.aws.amazon.com/cli/latest/reference/cloudwatch/list-metrics.html).

**Pour accéder aux métriques à l'aide de la CloudWatch CLI**  
Utilisez les commandes [mon-list-metrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/cli/cli-mon-list-metrics.html) et [mon-get-stats](https://docs.aws.amazon.com/AmazonCloudWatch/latest/cli/cli-mon-get-stats.html).

**Pour accéder aux métriques à l'aide de l' CloudWatch API**  
Utilisez les opérations [ListMetrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_ListMetrics.html) et [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html).

# Mesures Amazon MSK pour le suivi des courtiers standard avec CloudWatch
<a name="metrics-details"></a>

Amazon MSK s'intègre à Amazon CloudWatch afin que vous puissiez collecter, consulter et analyser les CloudWatch métriques pour vos courtiers MSK Standard. Les métriques que vous configurez pour vos clusters provisionnés par MSK sont automatiquement collectées et transmises à CloudWatch intervalles d'une minute. Vous pouvez définir le niveau de surveillance d'un cluster approvisionné par MSK sur l'un des niveaux suivants :`DEFAULT`, `PER_BROKER``PER_TOPIC_PER_BROKER`, ou. `PER_TOPIC_PER_PARTITION` Les tableaux des sections suivantes présentent toutes les métriques disponibles à partir de chaque niveau de surveillance.

**Note**  
Les noms de certaines métriques Amazon MSK destinées à la CloudWatch surveillance ont changé dans la version 3.6.0 et les versions ultérieures. Utilisez les nouveaux noms pour surveiller ces métriques. Pour les métriques dont le nom a changé, le tableau ci-dessous indique le nom utilisé dans les versions 3.6.0 et supérieures, suivi du nom dans la version 2.8.2.tiered.

Les métriques de niveau `DEFAULT` sont gratuites. La tarification des autres statistiques est décrite [sur la page de CloudWatch tarification d'Amazon](https://aws.amazon.com/cloudwatch/pricing/).

## Surveillance de niveau `DEFAULT`
<a name="default-metrics"></a>

Les métriques décrites dans le tableau suivant sont disponibles au niveau de la surveillance `DEFAULT`. Elles sont libres.


| Nom | Lorsqu'il est visible | Dimensions | Description | 
| --- | --- | --- | --- | 
| ActiveControllerCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Un seul contrôleur par cluster doit être actif à un moment donné. | 
| BurstBalance |  Une fois que le cluster a atteint l'état Actif.  |  Nom du cluster, ID de l'agent  |  Solde restant des crédits en rafale d'entrées-sorties pour les volumes EBS du cluster. Utilisez-le pour étudier la latence ou la diminution du débit. `BurstBalance` n'est pas signalé pour les volumes EBS lorsque les performances de base d'un volume sont supérieures aux performances en rafale maximales. Pour de plus amples informations, consultez [Crédits d'E/S et performances en rafale](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volume-types.html#IOcredit).  | 
| BytesInPerSec | Après avoir créé une rubrique. | Nom du cluster, ID de broker, rubrique | Nombre d'octets par seconde reçus des clients. Cette métrique est disponible par agent et également par rubrique. | 
| BytesOutPerSec | Après avoir créé une rubrique. | Nom du cluster, ID de broker, rubrique | Nombre d'octets par seconde envoyés aux clients. Cette métrique est disponible par agent et également par rubrique. | 
| ClientConnectionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID de l'agent, authentification client | Nombre de connexions client authentifiées actives. | 
| ConnectionCount | Une fois que le cluster a atteint l'état Actif. |  Nom du cluster, ID du broker  | Nombre de connexions actives authentifiées, non authentifiées et entre agents.  | 
| CPUCreditBalance  |  Une fois que le cluster a atteint l'état Actif.  |  Nom du cluster, ID du broker  |  Nombre de crédits UC gagnés qu’un agent a accumulés depuis son lancement. Les crédits sont accumulés dans le solde de crédits quand ils sont gagnés et supprimés du solde de crédits lorsqu’ils sont dépensés. Si vous avez épuisé le solde de crédits UC, cela peut avoir un impact négatif sur les performances de votre cluster. Vous pouvez prendre des mesures pour réduire la charge de l'UC. Par exemple, vous pouvez réduire le nombre de demandes des clients ou remplacer le type d'agent par un type d'agent M5.  | 
| CpuIdle | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de temps d'inactivité du processeur. | 
| CpuIoWait | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de temps d'inactivité de l'UC pendant une opération sur disque en attente. | 
| CpuSystem | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de CPU dans l'espace du noyau. | 
| CpuUser | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de CPU dans l'espace utilisateur. | 
| GlobalPartitionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Nombre de partitions parmi toutes les rubriques du cluster, à l'exception des réplicas. Comme il GlobalPartitionCount n'inclut pas les répliques, la somme des PartitionCount valeurs peut être plus élevée que GlobalPartitionCount si le facteur de réplication d'un sujet est supérieur à 1. | 
| GlobalTopicCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Nombre total de rubriques parmi tous les brokers du cluster. | 
| EstimatedMaxTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Nom du cluster, groupe de consommateurs, rubrique | Estimation du temps (en secondes) de purge de MaxOffsetLag. | 
| KafkaAppLogsDiskUsed | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage d'espace disque utilisé pour les journaux d'application. | 
| KafkaDataLogsDiskUsed (dimension Cluster Name, Broker ID) | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage d'espace disque utilisé pour les journaux de données. | 
| LeaderCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre total de leaders de partitions par agent, sans inclure les réplicas. | 
| MaxOffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Nom du cluster, groupe de consommateurs, rubrique | Retard de décalage maximal entre toutes les partitions d'une rubrique. | 
| MemoryBuffered | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire tampon pour le broker. | 
| MemoryCached | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire cache pour le broker. | 
| MemoryFree | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | La taille en octets de mémoire qui est libre et disponible pour le broker. | 
| HeapMemoryAfterGC  |  Une fois que le cluster a atteint l'état Actif.  |  Nom du cluster, ID du broker  | Pourcentage de mémoire de tas totale utilisée après le récupérateur de mémoire. | 
| MemoryUsed | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire utilisée pour le broker. | 
| MessagesInPerSec | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de messages entrants par seconde pour le broker. | 
| NetworkRxDropped | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets de réception supprimés. | 
| NetworkRxErrors | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre d'erreurs de réception réseau pour le broker. | 
| NetworkRxPackets | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets reçus par le broker. | 
| NetworkTxDropped | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets de transmission abandonnés. | 
| NetworkTxErrors | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre d'erreurs de transmission réseau pour le broker. | 
| NetworkTxPackets | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets transmis par le broker. | 
| OfflinePartitionsCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Nombre total de partitions hors connexion dans le cluster. | 
| PartitionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre total de partitions de rubrique par agent, y compris les réplicas. | 
| ProduceTotalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Temps moyen de production en millisecondes. | 
| RequestBytesMean | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre moyen d'octets de demandes pour le broker. | 
| RequestTime | Après l'application de la limitation de demande. | Nom du cluster, ID du broker | Temps moyen en millisecondes passé dans le réseau de courtage et les threads d'E/S pour traiter les demandes. | 
| RootDiskUsed | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage du disque racine utilisé par le broker. | 
| RollingEstimatedTimeLagMax\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Nom du cluster, groupe de consommateurs, rubrique | Estimation de la durée maximale progressive (en secondes) pour réduire le décalage de partition sur toutes les partitions d'un sujet. | 
| SumOffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Nom du cluster, groupe de consommateurs, rubrique | Retard de décalage agrégé pour toutes les partitions d'une rubrique. | 
| SwapFree | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire d'échange disponible pour le broker. | 
| SwapUsed  | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire d'échange utilisée pour le broker. | 
| TrafficShaping  |  Une fois que le cluster a atteint l'état Actif.  |  Nom du cluster, ID du broker  |  Métriques de haut niveau indiquant le nombre de paquets formés (abandonnés ou mis en file d'attente) en raison du dépassement des allocations réseau. Des détails plus fins sont disponibles avec les métriques PER\$1BROKER.  | 
| UnderMinIsrPartitionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de partitions sous minIsr pour le broker. | 
| UnderReplicatedPartitions | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de partitions sous-répliquées pour le broker. | 
| UserPartitionExists | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Métrique booléenne qui indique la présence d'une partition appartenant à l'utilisateur sur un broker. Une valeur de 1 indique la présence de partitions sur le broker. | 
| ZooKeeperRequestLatencyMsMean  | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pour ZooKeeper un cluster basé. Latence moyenne en millisecondes pour les ZooKeeper requêtes Apache provenant du broker. | 
| ZooKeeperSessionState | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pour ZooKeeper un cluster basé. État de connexion de la ZooKeeper session du courtier, qui peut être l'un des suivants : NOT\$1CONNECTED : '0.0', ASSOCIATING : '0.1', CONNECTING : '0.5', CONNECTEDREADONLY : '0.8', CONNECTED : '1.0', CLOSED : '5.0', AUTH\$1FAILED : '10.0'. | 

\$1 Les mesures de décalage des consommateurs nécessitent des noms de groupes de consommateurs uniquement en ASCII et comportent des exigences d'émission spécifiques. Pour de plus amples informations, veuillez consulter [Surveillez les retards des consommateurs](consumer-lag.md).

## Surveillance de niveau `PER_BROKER`
<a name="broker-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur `PER_BROKER`, vous obtenez les métriques décrites dans le tableau suivant en plus de toutes les métriques de niveau `DEFAULT`. Vous payez les métriques dans le tableau suivant, alors que les métriques de niveau `DEFAULT` restent libres. Les métriques que contient ce tableau présentent les dimensions suivantes : Nom du cluster, ID d’agent.


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| BwInAllowanceExceeded | Une fois que le cluster a atteint l'état Actif. |  Nombre de paquets formés parce que la bande passante agrégée entrante a dépassé le maximum de l'agent.  | 
| BwOutAllowanceExceeded | Une fois que le cluster a atteint l'état Actif. |  Nombre de paquets formés parce que la bande passante agrégée sortante a dépassé le maximum de l'agent.  | 
| ConntrackAllowanceExceeded  | Une fois que le cluster a atteint l'état Actif. |  Nombre de paquets formés parce que le suivi des connexions a dépassé le maximum de l'agent. Le suivi des connexions est lié aux groupes de sécurité qui assurent le suivi de chaque connexion établie pour que les paquets de retour soient livrés comme prévu.   | 
| ConnectionCloseRate | Une fois que le cluster a atteint l'état Actif. |  Nombre de connexions fermées par seconde et par écouteur. Ce nombre est agrégé par écouteur et filtré pour les écouteurs clients.  | 
| ConnectionCreationRate | Une fois que le cluster a atteint l'état Actif. |  Nombre de nouvelles connexions établies par seconde et par écouteur. Ce nombre est agrégé par écouteur et filtré pour les écouteurs clients.  | 
| CpuCreditUsage | Une fois que le cluster a atteint l'état Actif. |  Nombre de crédits UC dépensés par l’agent. Si vous avez épuisé le solde de crédits UC, cela peut avoir un impact négatif sur les performances de votre cluster. Vous pouvez prendre des mesures pour réduire la charge de l'UC. Par exemple, vous pouvez réduire le nombre de demandes des clients ou remplacer le type d'agent par un type d'agent M5.  | 
| FetchConsumerLocalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur est traitée au niveau du leader. | 
| FetchConsumerRequestQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur attend dans la file d'attente des demandes. | 
| FetchConsumerResponseQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur attend dans la file d'attente de réponses. | 
| FetchConsumerResponseSendTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pour envoyer une réponse au consommateur. | 
| FetchConsumerTotalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps total moyen, en millisecondes, que les consommateurs consacrent à l'extraction des données du broker. | 
| FetchFollowerLocalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi est traitée au niveau du leader. | 
| FetchFollowerRequestQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi attend dans la file d'attente des demandes. | 
| FetchFollowerResponseQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi attend dans la file d'attente des réponses. | 
| FetchFollowerResponseSendTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, d'envoi d'une réponse par le suiveur. | 
| FetchFollowerTotalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps total moyen, en millisecondes, consacré par les abonnés à la récupération des données du broker. | 
| FetchMessageConversionsPerSec | Après avoir créé une rubrique. | Nombre de conversions de messages d'extraction par seconde pour le broker. | 
| FetchThrottleByteRate | Une fois la limitation de la bande passante appliquée. | Nombre d'octets limités par seconde. | 
| FetchThrottleQueueSize | Une fois la limitation de la bande passante appliquée. | Nombre de messages dans la file d'attente des limites. | 
| FetchThrottleTime | Une fois la limitation de la bande passante appliquée. | Temps moyen de récupération des limites en millisecondes. | 
| IAMNumberOfConnectionRequests | Une fois que le cluster a atteint l'état Actif. | Le nombre de demandes d'authentification IAM par seconde. | 
| IAMTooManyConnections | Une fois que le cluster a atteint l'état Actif. | Le nombre de connexions tentées au-delà de 100. 0 signifie que le nombre de connexions est dans les limites. Si >0, la limite d'accélération est dépassée et vous devez réduire le nombre de connexions. | 
| LinklocalAllowanceExceeded  | Une fois que le cluster a atteint l'état Actif. |  Nombre de paquets ignorés abandonné que le PPS du trafic vers les services proxy locaux a dépassé le maximum de l’interface réseau. Cela affecte le trafic vers le service DNS, le service des métadonnées d’instance et le service Amazon Time Sync.  | 
| NetworkProcessorAvgIdlePercent | Une fois que le cluster a atteint l'état Actif. | Pourcentage moyen de temps pendant lequel les processeurs réseau sont inactifs. | 
| PpsAllowanceExceeded | Une fois que le cluster a atteint l'état Actif. |  Nombre de paquets formés parce que le PPS bidirectionnel a dépassé le maximum de l'agent.  | 
| ProduceLocalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, pendant lequel la demande est traitée au niveau du leader. | 
| ProduceMessageConversionsPerSec | Après avoir créé une rubrique. | Nombre de conversions de messages de production par seconde pour le broker. | 
| ProduceMessageConversionsTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, consacré aux conversions de format de message. | 
| ProduceRequestQueueTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, que les messages de demande passent dans la file d'attente. | 
| ProduceResponseQueueTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, que les messages de réponse passent dans la file d'attente. | 
| ProduceResponseSendTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, consacré à l'envoi de messages de réponse. | 
| ProduceThrottleByteRate | Une fois la limitation de la bande passante appliquée. | Nombre d'octets limités par seconde. | 
| ProduceThrottleQueueSize | Une fois la limitation de la bande passante appliquée. | Nombre de messages dans la file d'attente des limites. | 
| ProduceThrottleTime | Une fois la limitation de la bande passante appliquée. | Temps moyen de production de limites en millisecondes. | 
| ProduceTotalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen de production en millisecondes. | 
|  `RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)`  |  Une fois qu'il y a un producteur/consommateur.  |  Nombre total d'octets transférés depuis le stockage hiérarchisé en réponse aux extractions du consommateur. Cette métrique inclut toutes les partitions de rubrique qui contribuent au trafic de transfert de données en aval. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) |  Une fois qu'il y a un producteur/consommateur.  |  Nombre total d'octets transférés vers le stockage hiérarchisé, y compris les données provenant de segments de journal, d'index et d'autres fichiers auxiliaires. Cette métrique inclut toutes les partitions de rubrique qui contribuent au trafic de transfert de données en amont. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteLogManagerTasksAvgIdlePercent |  Une fois que le cluster a atteint l'état Actif.  | Pourcentage de temps moyen pendant lequel le gestionnaire de journaux distant est resté inactif. Le gestionnaire de journaux distant transfère les données de l'agent vers le stockage hiérarchisé. Catégorie : Activité interne. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogReaderAvgIdlePercent |  Une fois que le cluster a atteint l'état Actif.  | Pourcentage de temps moyen pendant lequel le lecteur de journaux distant est resté inactif. Le lecteur de journaux distant transfère les données du stockage distant à l'agent en réponse aux extractions du consommateur. Catégorie : Activité interne. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogReaderTaskQueueSize |  Une fois que le cluster a atteint l'état Actif.  | Nombre de tâches responsables des lectures depuis le stockage hiérarchisé qui attendent d'être planifiées. Catégorie : Activité interne. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) |  Une fois que le cluster a atteint l'état Actif.  | Taux total d'erreurs en réponse aux demandes de lecture que l'agent spécifié a envoyées au stockage hiérarchisé pour récupérer des données en réponse aux extractions du consommateur. Cette métrique inclut toutes les partitions de rubrique qui contribuent au trafic de transfert de données en aval. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) |  Une fois que le cluster a atteint l'état Actif.  | Nombre total de demandes de lecture que l'agent spécifié a envoyées au stockage hiérarchisé pour récupérer des données en réponse aux extractions du consommateur. Cette métrique inclut toutes les partitions de rubrique qui contribuent au trafic de transfert de données en aval. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) |  Une fois que le cluster a atteint l'état Actif.  | Taux total d'erreurs en réponse aux demandes d'écriture que l'agent spécifié a envoyées au stockage hiérarchisé pour transférer des données en amont. Cette métrique inclut toutes les partitions de rubrique qui contribuent au trafic de transfert de données en amont. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogSizeBytes | Une fois que le cluster a atteint l'état Actif. |  Nombre d'octets stockés sur le niveau distant. Cette métrique est disponible pour les clusters de stockage hiérarchisé à partir de la version 3.7.x d'Apache Kafka sur Amazon MSK.  | 
| ReplicationBytesInPerSec | Après avoir créé une rubrique. | Nombre d'octets par seconde reçus des autres agents. | 
| ReplicationBytesOutPerSec | Après avoir créé une rubrique. | Nombre d'octets envoyés par seconde aux autres agents. | 
| RequestExemptFromThrottleTime | Après l'application de la limitation de demande. | Temps moyen en millisecondes passé dans le réseau de courtage et les threads d'E/S pour traiter les demandes exemptées de la limitation. | 
| RequestHandlerAvgIdlePercent | Une fois que le cluster a atteint l'état Actif. | Pourcentage moyen de temps pendant lequel les threads du gestionnaire de demandes sont inactifs. | 
| RequestThrottleQueueSize | Après l'application de la limitation de demande. | Nombre de messages dans la file d'attente des limites. | 
| RequestThrottleTime | Après l'application de la limitation de demande. | Temps moyen de limitation de demande en millisecondes. | 
| TcpConnections | Une fois que le cluster a atteint l'état Actif. |  Affiche le nombre de segments TCP entrants et sortants avec l'indicateur SYN défini.  | 
| RemoteCopyLagBytes (TotalTierBytesLag in v2.8.2.tiered) | Après avoir créé une rubrique. | Nombre total d'octets de données éligibles à la hiérarchisation sur l'agent mais qui n'ont pas encore été transférés vers le stockage hiérarchisé. Ces métriques montrent l'efficacité du transfert de données en amont. À mesure que le retard augmente, la quantité de données qui ne sont pas conservées dans le stockage hiérarchisé augmente. Catégorie : Retard d'archivage. Il ne s'agit pas d'une métrique KIP-405. | 
| TrafficBytes | Une fois que le cluster a atteint l'état Actif. |  Affiche le trafic réseau en nombre total d'octets entre les clients (producteurs et consommateurs) et les agents. Le trafic entre les agents n'est pas signalé.  | 
| VolumeQueueLength | Une fois que le cluster a atteint l'état Actif. |  Nombre de demandes d'opérations de lecture et d'écriture en attente de réalisation au cours d'une période donnée.  | 
|  VolumeReadBytes  | Une fois que le cluster a atteint l'état Actif. |  Nombre d'octets lus au cours d'une période donnée.  | 
| VolumeReadOps  | Une fois que le cluster a atteint l'état Actif. |  Nombre total d'opérations de lecture au cours d'une période donnée.  | 
| VolumeTotalReadTime  | Une fois que le cluster a atteint l'état Actif. |  Nombre total de secondes passées par toutes les opérations de lecture terminées, au cours d'une période donnée.  | 
| VolumeTotalWriteTime  | Une fois que le cluster a atteint l'état Actif. |  Nombre total de secondes passées par toutes les opérations d'écriture terminées, au cours d'une période donnée.  | 
| VolumeWriteBytes  | Une fois que le cluster a atteint l'état Actif. |  Nombre d'octets écrits au cours d'une période donnée.  | 
| VolumeWriteOps  | Une fois que le cluster a atteint l'état Actif. |  Nombre total d'opérations d'écriture au cours d'une période donnée.  | 

## Surveillance de niveau `PER_TOPIC_PER_BROKER`
<a name="broker-topic-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur `PER_TOPIC_PER_BROKER`, vous obtenez les métriques décrites dans le tableau suivant, en plus de toutes les métriques des niveaux `PER_BROKER` et par défaut. Seules les métriques de niveau `DEFAULT` sont gratuites. Les métriques que contient ce tableau présentent les dimensions suivantes : Nom du cluster, ID d’agent, Rubrique.

**Important**  
Pour un cluster Amazon MSK qui utilise Apache Kafka 2.4.1 ou une version plus récente, les métriques du tableau suivant apparaissent uniquement après que leurs valeurs sont devenues non nulles pour la première fois. Par exemple, pour voir `BytesInPerSec`, un ou plusieurs producteurs doivent d'abord envoyer des données au cluster. 


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| FetchMessageConversionsPerSec | Après avoir créé une rubrique. | Nombre de messages récupérés convertis par seconde. | 
| MessagesInPerSec | Après avoir créé une rubrique. | Nombre de messages reçus par seconde. | 
| ProduceMessageConversionsPerSec | Après avoir créé une rubrique. | Nombre de conversions par seconde pour les messages produits. | 
| RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered) |  Lorsque vous créez une rubrique et que la rubrique est en train de produire/consommer.  |  Nombre d'octets transférés depuis le stockage hiérarchisé en réponse aux extractions du consommateur pour la rubrique et l'agent spécifiés. Cette métrique inclut toutes les partitions de la rubrique qui contribuent au trafic de transfert de données en aval sur l'agent spécifié. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) | Lorsque vous créez une rubrique et que la rubrique est en train de produire/consommer. |  Nombre d'octets transférés vers le stockage hiérarchisé, pour la rubrique et l'agent spécifiés. Cette métrique inclut toutes les partitions de la rubrique qui contribuent au trafic de transfert de données en amont sur l'agent spécifié. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) | Lorsque vous créez une rubrique et que la rubrique est en train de produire/consommer. | Taux d'erreurs en réponse aux demandes de lecture que l'agent spécifié envoie au stockage hiérarchisé pour récupérer des données en réponse aux extractions du consommateur sur la rubrique spécifiée. Cette métrique inclut toutes les partitions de la rubrique qui contribuent au trafic de transfert de données en aval sur l'agent spécifié. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) | Lorsque vous créez une rubrique et que la rubrique est en train de produire/consommer. | Nombre de demandes de lecture que l'agent spécifié envoie au stockage hiérarchisé pour récupérer des données en réponse aux extractions du consommateur sur la rubrique spécifiée. Cette métrique inclut toutes les partitions de la rubrique qui contribuent au trafic de transfert de données en aval sur l'agent spécifié. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) | Lorsque vous créez une rubrique et que la rubrique est en train de produire/consommer. | Taux d'erreurs en réponse aux demandes d'écriture que l'agent spécifié envoie au stockage hiérarchisé pour transférer des données en amont. Cette métrique inclut toutes les partitions de la rubrique qui contribuent au trafic de transfert de données en amont sur l'agent spécifié. Catégorie : Trafic et taux d'erreur. Il s'agit d'une métrique [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogSizeBytes | Après avoir créé une rubrique. |  Nombre d'octets stockés sur le niveau distant. Cette métrique est disponible pour les clusters de stockage hiérarchisé à partir de la version 3.7.x d'Apache Kafka sur Amazon MSK.  | 

## Surveillance de niveau `PER_TOPIC_PER_PARTITION`
<a name="topic-partition-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur `PER_TOPIC_PER_PARTITION`, vous obtenez les métriques décrites dans le tableau suivant, en plus de toutes les métriques des niveaux `PER_TOPIC_PER_BROKER`, `PER_BROKER` et PAR DÉFAUT. Seules les métriques de niveau `DEFAULT` sont gratuites. Les métriques de ce tableau ont les dimensions suivantes : Groupe de consommateurs, Rubrique, Partition.


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| EstimatedTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Estimation du temps (en secondes) nécessaire pour éliminer le retard de décalage de la partition. | 
| OffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Retard des consommateurs au niveau de la partition en nombre de décalages. | 
| RollingEstimatedTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Estimation du temps de roulement (en secondes) pour réduire le retard de décalage de la partition. | 

\$1 Les mesures de décalage des consommateurs nécessitent des noms de groupes de consommateurs uniquement en ASCII et comportent des exigences d'émission spécifiques. Pour de plus amples informations, veuillez consulter [Surveillez les retards des consommateurs](consumer-lag.md).

# Comprendre les états des clusters provisionnés par MSK
<a name="msk-cluster-states"></a>

Le tableau suivant présente les états possibles d'un cluster provisionné par MSK et décrit leur signification. Sauf indication contraire, les états du cluster MSK Provisioned s'appliquent aux types de broker Standard et Express. Ce tableau décrit également les actions que vous pouvez et ne pouvez pas effectuer lorsqu'un cluster MSK provisioned se trouve dans l'un de ces états. Pour connaître l'état d'un cluster, vous pouvez consulter la AWS Management Console. Vous pouvez également utiliser la commande [describe-cluster-v2](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/kafka/describe-cluster-v2.html) ou l'opération [DescribeClusterV2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters-clusterarn.html#DescribeClusterV2) pour décrire le cluster provisionné. La description d'un cluster inclut son état.


****  

| État du cluster provisionné MSK | Signification et actions possibles | 
| --- | --- | 
| ACTIF |  Vous pouvez produire et consommer des données. Vous pouvez également exécuter l'API Amazon MSK et effectuer AWS CLI des opérations sur le cluster.  | 
| CREAtioN |  Amazon MSK est en train de configurer le cluster provisionné. Vous devez attendre que le cluster atteigne l'état ACTIF avant de pouvoir l'utiliser pour produire ou consommer des données ou pour exécuter l'API Amazon MSK ou AWS CLI des opérations sur celui-ci.  | 
| SUPPRESSION | Le cluster provisionné est en cours de suppression. Vous ne pouvez pas l'utiliser pour produire ou consommer des données. Vous ne pouvez pas non plus exécuter l'API Amazon MSK ou effectuer AWS CLI des opérations sur celle-ci. | 
| ÉCHEC | Le processus de création ou de suppression du cluster provisionné a échoué. Vous ne pouvez pas utiliser le cluster pour produire ou consommer des données. Vous pouvez supprimer le cluster, mais vous ne pouvez pas effectuer d'opérations d'API Amazon MSK ou de AWS CLI mise à jour sur celui-ci. | 
| RÉPARATION |  Amazon MSK exécute une opération interne, comme le remplacement d'un agent non sain. Par exemple, il se peut que l'agent ne réponde pas. Vous pouvez toujours utiliser le cluster provisionné pour produire et consommer des données. Cependant, vous ne pouvez pas effectuer d'opérations d'API Amazon MSK ou de AWS CLI mise à jour sur le cluster tant que celui-ci ne revient pas à l'état ACTIF.  | 
| MAINTENANCE | (Brokers standard uniquement) Amazon MSK effectue des opérations de maintenance de routine sur le cluster. Ces opérations de maintenance incluent l'application de correctifs de sécurité. Vous pouvez encore utiliser le cluster pour produire ou consommer des données. Toutefois, vous ne pouvez pas effectuer d'opérations de mise à jour de l'API ou de la AWS CLI Amazon MSK sur le cluster tant qu'il ne revient pas à l'état ACTIF. L'État du cluster reste ACTIF pendant la maintenance sur les courtiers Express. Consultez [Application de correctifs sur des clusters provisionnés par MSK](patching-impact.md). | 
| REDÉMARRAGE\$1AGENT | Amazon MSK est en train de redémarrer un agent. Vous pouvez toujours utiliser le cluster provisionné pour produire et consommer des données. Cependant, vous ne pouvez pas effectuer d'opérations d'API Amazon MSK ou de AWS CLI mise à jour sur le cluster tant que celui-ci ne revient pas à l'état ACTIF. | 
| MISE À JOUR | Une API ou une AWS CLI opération Amazon MSK initiée par l'utilisateur met à jour le cluster provisionné. Vous pouvez toujours utiliser le cluster provisionné pour produire et consommer des données. Cependant, vous ne pouvez pas effectuer d'autres opérations d'API Amazon MSK ou de AWS CLI mise à jour sur le cluster tant qu'il ne revient pas à l'état ACTIF. | 

# Mesures Amazon MSK pour le suivi des courtiers Express avec CloudWatch
<a name="metrics-details-express"></a>

Amazon MSK s'intègre CloudWatch afin que vous puissiez collecter, consulter et analyser les CloudWatch statistiques pour vos courtiers MSK Express. Les métriques que vous configurez pour vos clusters provisionnés par MSK sont automatiquement collectées et transmises à CloudWatch intervalles d'une minute. Vous pouvez définir le niveau de surveillance d'un cluster approvisionné par MSK sur l'un des niveaux suivants :`DEFAULT`, `PER_BROKER``PER_TOPIC_PER_BROKER`, ou. `PER_TOPIC_PER_PARTITION` Les tableaux des sections suivantes présentent les mesures disponibles à partir de chaque niveau de surveillance.

Les métriques de niveau `DEFAULT` sont gratuites. La tarification des autres statistiques est décrite [sur la page de CloudWatch tarification d'Amazon](https://aws.amazon.com/cloudwatch/pricing/).

## `DEFAULT`Surveillance des niveaux pour les courtiers Express
<a name="express-default-metrics"></a>

Les mesures décrites dans le tableau suivant sont disponibles gratuitement au niveau de la `DEFAULT` surveillance.


| Nom | Lorsqu'il est visible | Dimensions | Description | 
| --- | --- | --- | --- | 
| ActiveControllerCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Un seul contrôleur par cluster doit être actif à un moment donné. | 
| BytesInPerSec | Après avoir créé une rubrique. | Nom du cluster, ID de broker, rubrique | Nombre d'octets par seconde reçus des clients. Cette métrique est disponible par agent et également par rubrique. | 
| BytesOutPerSec | Après avoir créé une rubrique. | Nom du cluster, ID de broker, rubrique | Nombre d'octets par seconde envoyés aux clients. Cette métrique est disponible par agent et également par rubrique. | 
| ClientConnectionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID de l'agent, authentification client | Nombre de connexions client authentifiées actives. | 
| ConnectionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de connexions actives authentifiées, non authentifiées et entre agents. | 
| CpuIdle | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de temps d'inactivité du processeur. | 
| CpuSystem | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de CPU dans l'espace du noyau. | 
| CpuUser | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Pourcentage de CPU dans l'espace utilisateur. | 
| GlobalPartitionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Nombre de partitions parmi toutes les rubriques du cluster, à l'exception des réplicas. Comme il `GlobalPartitionCount` n'inclut pas les répliques, la somme des `PartitionCount` valeurs peut être plus élevée que `GlobalPartitionCount` si le facteur de réplication d'un sujet est supérieur à`1`. | 
| GlobalTopicCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Nombre total de rubriques parmi tous les brokers du cluster. | 
| EstimatedMaxTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Groupe de consommateurs, rubrique | Estimation du temps (en secondes) de purge de `MaxOffsetLag`. | 
| LeaderCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre total de leaders de partitions par agent, sans inclure les réplicas. | 
| MaxOffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Groupe de consommateurs, rubrique | Retard de décalage maximal entre toutes les partitions d'une rubrique. | 
| MemoryBuffered | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire tampon pour le broker. | 
| MemoryCached | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire cache pour le broker. | 
| MemoryFree | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | La taille en octets de mémoire qui est libre et disponible pour le broker. | 
| MemoryUsed | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Taille en octets de mémoire utilisée pour le broker. | 
| MessagesInPerSec | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de messages entrants par seconde pour le broker. | 
| NetworkRxDropped | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets de réception supprimés. | 
| NetworkRxErrors | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre d'erreurs de réception réseau pour le broker. | 
| NetworkRxPackets | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets reçus par le broker. | 
| NetworkTxDropped | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets de transmission abandonnés. | 
| NetworkTxErrors | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre d'erreurs de transmission réseau pour le broker. | 
| NetworkTxPackets | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre de paquets transmis par le broker. | 
| PartitionCount | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre total de partitions de rubrique par agent, y compris les réplicas. | 
| ProduceTotalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Temps moyen de production en millisecondes. | 
| RequestBytesMean | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Nombre moyen d'octets de demandes pour le broker. | 
| RequestTime | Après l'application de la limitation de demande. | Nom du cluster, ID du broker | Temps moyen en millisecondes passé dans le réseau de courtiers et les I/O threads pour traiter les demandes. | 
| RollingEstimatedTimeLagMax\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Groupe de consommateurs, rubrique | Estimation de la durée maximale progressive (en secondes) pour réduire le décalage de partition sur toutes les partitions d'un sujet. | 
| StorageUsed | Une fois que le cluster a atteint l'état Actif. | Nom du cluster | Stockage total utilisé sur toutes les partitions du cluster, à l'exception des répliques. | 
| SumOffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Groupe de consommateurs, rubrique | Retard de décalage agrégé pour toutes les partitions d'une rubrique. | 
| UserPartitionExists | Une fois que le cluster a atteint l'état Actif. | Nom du cluster, ID du broker | Métrique booléenne qui indique la présence d'une partition appartenant à l'utilisateur sur un broker. Une valeur de 1 indique la présence de partitions sur le broker. | 

\$1 Les mesures de décalage des consommateurs nécessitent des noms de groupes de consommateurs uniquement en ASCII et comportent des exigences d'émission spécifiques. Pour de plus amples informations, veuillez consulter [Surveillez les retards des consommateurs](consumer-lag.md).

## `PER_BROKER`Surveillance des niveaux pour les courtiers Express
<a name="express-per-broker-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur `PER_BROKER`, vous obtenez les métriques décrites dans le tableau suivant en plus de toutes les métriques de niveau `DEFAULT`. Vous payez pour les indicateurs indiqués dans le tableau suivant, tandis que les indicateurs de `DEFAULT` niveau restent gratuits. Les métriques que contient ce tableau présentent les dimensions suivantes : Nom du cluster, ID d’agent.


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| ConnectionCloseRate | Une fois que le cluster a atteint l'état Actif. | Nombre de connexions fermées par seconde et par écouteur. Ce nombre est agrégé par écouteur et filtré pour les écouteurs clients. | 
| ConnectionCreationRate | Une fois que le cluster a atteint l'état Actif. | Nombre de nouvelles connexions établies par seconde et par écouteur. Ce nombre est agrégé par écouteur et filtré pour les écouteurs clients. | 
| FetchConsumerLocalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur est traitée au niveau du leader. | 
| FetchConsumerRequestQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur attend dans la file d'attente des demandes. | 
| FetchConsumerResponseQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande du consommateur attend dans la file d'attente de réponses. | 
| FetchConsumerResponseSendTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pour envoyer une réponse au consommateur. | 
| FetchConsumerTotalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps total moyen, en millisecondes, que les consommateurs consacrent à l'extraction des données du broker. | 
| FetchFollowerLocalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi est traitée au niveau du leader. | 
| FetchFollowerRequestQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi attend dans la file d'attente des demandes. | 
| FetchFollowerResponseQueueTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, pendant lequel la demande de suivi attend dans la file d'attente des réponses. | 
| FetchFollowerResponseSendTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps moyen, en millisecondes, d'envoi d'une réponse par le suiveur. | 
| FetchFollowerTotalTimeMsMean | Une fois qu'il y a un producteur/consommateur. | Temps total moyen, en millisecondes, consacré par les abonnés à la récupération des données du broker. | 
| FetchThrottleByteRate | Une fois la limitation de la bande passante appliquée. | Nombre d'octets limités par seconde. | 
| FetchThrottleQueueSize | Une fois la limitation de la bande passante appliquée. | Nombre de messages dans la file d'attente des limites. | 
| FetchThrottleTime | Une fois la limitation de la bande passante appliquée. | Temps moyen de récupération des limites en millisecondes. | 
| IAMNumberOfConnectionRequests | Une fois que le cluster a atteint l'état Actif. | Le nombre de demandes d'authentification IAM par seconde. | 
| IAMTooManyConnections | Une fois que le cluster a atteint l'état Actif. | Le nombre de connexions tentées est supérieur à 100. `0`signifie que le nombre de connexions est dans les limites. Si `>0` la limite d'accélération est dépassée, vous devez réduire le nombre de connexions. | 
| NetworkProcessorAvgIdlePercent | Une fois que le cluster a atteint l'état Actif. | Pourcentage moyen de temps pendant lequel les processeurs réseau sont inactifs. | 
| ProduceLocalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, pendant lequel la demande est traitée au niveau du leader. | 
| ProduceRequestQueueTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, que les messages de demande passent dans la file d'attente. | 
| ProduceResponseQueueTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, que les messages de réponse passent dans la file d'attente. | 
| ProduceResponseSendTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen, en millisecondes, consacré à l'envoi de messages de réponse. | 
| ProduceThrottleByteRate | Une fois la limitation de la bande passante appliquée. | Nombre d'octets limités par seconde. | 
| ProduceThrottleQueueSize | Une fois la limitation de la bande passante appliquée. | Nombre de messages dans la file d'attente des limites. | 
| ProduceThrottleTime | Une fois la limitation de la bande passante appliquée. | Temps moyen de production de limites en millisecondes. | 
| ProduceTotalTimeMsMean | Une fois que le cluster a atteint l'état Actif. | Temps moyen de production en millisecondes. | 
| ReplicationBytesInPerSec | Après avoir créé une rubrique. | Nombre d'octets par seconde reçus des autres agents. | 
| ReplicationBytesOutPerSec | Après avoir créé une rubrique. | Nombre d'octets envoyés par seconde aux autres agents. | 
| RequestExemptFromThrottleTime | Après l'application de la limitation de demande. | Durée moyenne en millisecondes consacrée au réseau de courtiers et aux I/O threads pour traiter les demandes exemptes de limitation. | 
| RequestHandlerAvgIdlePercent | Une fois que le cluster a atteint l'état Actif. | Pourcentage moyen de temps pendant lequel les threads du gestionnaire de demandes sont inactifs. | 
| RequestThrottleQueueSize | Après l'application de la limitation de demande. | Nombre de messages dans la file d'attente des limites. | 
| RequestThrottleTime | Après l'application de la limitation de demande. | Temps moyen de limitation de demande en millisecondes. | 
| TcpConnections | Une fois que le cluster a atteint l'état Actif. | Affiche le nombre de segments TCP entrants et sortants avec l'indicateur SYN défini. | 
| TrafficBytes | Une fois que le cluster a atteint l'état Actif. | Affiche le trafic réseau en nombre total d'octets entre les clients (producteurs et consommateurs) et les agents. Le trafic entre les agents n'est pas signalé. | 

## `PER_TOPIC_PER_PARTITION`surveillance du niveau pour les courtiers Express
<a name="express-per-topic-per-partition-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur`PER_TOPIC_PER_PARTITION`, vous obtenez les mesures décrites dans le tableau suivant, en plus de toutes les mesures des `DEFAULT` niveaux `PER_TOPIC_PER_BROKER``PER_BROKER`, et. Seuls les indicateurs de `DEFAULT` niveau sont gratuits. Les métriques de ce tableau ont les dimensions suivantes : Groupe de consommateurs, Rubrique, Partition.


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| EstimatedTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Estimation du temps (en secondes) nécessaire pour éliminer le retard de décalage de la partition. | 
| OffsetLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Retard des consommateurs au niveau de la partition en nombre de décalages. | 
| RollingEstimatedTimeLag\$1 | Après que le groupe de consommateurs a consommé à partir d'une rubrique. | Estimation du temps de roulement (en secondes) pour réduire le retard de décalage de la partition. | 

\$1 Les mesures de décalage des consommateurs nécessitent des noms de groupes de consommateurs uniquement en ASCII et comportent des exigences d'émission spécifiques. Pour de plus amples informations, veuillez consulter [Surveillez les retards des consommateurs](consumer-lag.md).

## `PER_TOPIC_PER_BROKER`surveillance du niveau pour les courtiers Express
<a name="express-per-topic-per-broker-metrics"></a>

Lorsque vous définissez le niveau de surveillance sur`PER_TOPIC_PER_BROKER`, vous obtenez les mesures décrites dans le tableau suivant, en plus de toutes les mesures des `DEFAULT` niveaux `PER_BROKER` et. Seuls les indicateurs de `DEFAULT` niveau sont gratuits. Les métriques que contient ce tableau présentent les dimensions suivantes : Nom du cluster, ID d’agent, Rubrique.

**Important**  
Les mesures du tableau suivant apparaissent uniquement lorsque leurs valeurs sont devenues différentes de zéro pour la première fois. Par exemple, pour voir BytesInPerSec, un ou plusieurs producteurs doivent d'abord envoyer des données au cluster.


| Nom | Lorsqu'il est visible | Description | 
| --- | --- | --- | 
| MessagesInPerSec | Après avoir créé une rubrique. | Nombre de messages reçus par seconde. | 

# Surveillez un cluster provisionné MSK avec Prometheus
<a name="open-monitoring"></a>

Vous pouvez surveiller votre cluster MSK Provisioned avec Prometheus, un système de surveillance open source pour les données métriques de séries chronologiques. Vous pouvez publier ces données sur Amazon Managed Service for Prometheus à l'aide de la fonctionnalité d'écriture à distance de Prometheus. [https://docs.newrelic.com/docs/integrations/amazon-integrations/aws-integrations-list/aws-managed-kafka-msk-integration](https://docs.newrelic.com/docs/integrations/amazon-integrations/aws-integrations-list/aws-managed-kafka-msk-integration) La surveillance ouverte est disponible gratuitement, mais des frais s'appliquent pour le transfert de données entre les zones de disponibilité.

Pour plus d'informations sur Prometheus, consultez la [documentation Prometheus](https://prometheus.io/docs).

Pour plus d'informations sur l'utilisation de Prometheus, [consultez Améliorer les informations opérationnelles pour Amazon MSK à l'aide d'Amazon Managed Service for Prometheus et d'Amazon Managed](https://aws.amazon.com/blogs//big-data/enhance-operational-insights-for-amazon-msk-using-amazon-managed-service-for-prometheus-and-amazon-managed-grafana/) Grafana.

**Note**  
KRaft le mode métadonnées et les courtiers MSK Express ne peuvent pas activer à la fois la surveillance ouverte et l'accès public.

# Activez la surveillance ouverte sur les nouveaux clusters provisionnés par MSK
<a name="enable-open-monitoring-at-creation"></a>

Cette procédure décrit comment activer la surveillance ouverte sur un nouveau cluster MSK à l'aide de l' AWS Management Console API Amazon MSK ou de l'API Amazon MSK. AWS CLI

**À l'aide du AWS Management Console**

1. Connectez-vous à la AWS Management Console console Amazon MSK et ouvrez-la [https://console.aws.amazon.com/msk/chez vous ? region=us-east-1\$1/home/](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/).

1. Dans la section **Monitoring (Surveillance)**, cochez la case en regard de **Enable open monitoring with Prometheus (Activer la surveillance ouverte avec Prometheus)**.

1. Fournissez les informations requises dans toutes les sections de la page et examinez toutes les options disponibles.

1. Choisissez **Créer un cluster**.

**À l'aide du AWS CLI**
+ Invoquez la commande [create-cluster](https://docs.aws.amazon.com/cli/latest/reference/kafka/create-cluster.html) et spécifiez son option `open-monitoring`. Activez le `JmxExporter`, le `NodeExporter`, ou les deux. Si vous spécifiez `open-monitoring`, les deux exportateurs ne peuvent pas être désactivés en même temps.

**Utilisation de l’API**
+ Invoquez l'[CreateCluster](https://docs.aws.amazon.com/msk/1.0/apireference/clusters.html#CreateCluster)opération et spécifiez`OpenMonitoring`. Activez le `jmxExporter`, le `nodeExporter`, ou les deux. Si vous spécifiez `OpenMonitoring`, les deux exportateurs ne peuvent pas être désactivés en même temps.

# Activer la surveillance ouverte sur le cluster MSK Provisioned existant
<a name="enable-open-monitoring-after-creation"></a>

Pour activer la surveillance ouverte, assurez-vous que le cluster MSK Provisioned est dans cet état. `ACTIVE`

**À l'aide du AWS Management Console**

1. Connectez-vous à la AWS Management Console console Amazon MSK et ouvrez-la [https://console.aws.amazon.com/msk/chez vous ? region=us-east-1\$1/home/](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/).

1. Choisissez le nom du cluster que vous voulez mettre à jour. Vous accédez alors à une page contenant les détails du cluster.

1. Dans l'onglet **Propriétés**, faites défiler vers le bas pour accéder à la section **Surveillance**.

1. Choisissez **Modifier**.

1. Cochez la case en regard de **Enable open monitoring with Prometheus (Activer la surveillance ouverte avec Prometheus)**.

1. Sélectionnez **Enregistrer les modifications**.

**À l'aide du AWS CLI**
+ Invoquez la commande [update-monitoring](https://docs.aws.amazon.com/cli/latest/reference/kafka/update-monitoring.html) et spécifiez son option `open-monitoring`. Activez le `JmxExporter`, le `NodeExporter`, ou les deux. Si vous spécifiez `open-monitoring`, les deux exportateurs ne peuvent pas être désactivés en même temps.

**Utilisation de l’API**
+ Invoquez l'[UpdateMonitoring](https://docs.aws.amazon.com/msk/1.0/apireference/clusters-clusterarn-monitoring.html#UpdateMonitoring)opération et spécifiez`OpenMonitoring`. Activez le `jmxExporter`, le `nodeExporter`, ou les deux. Si vous spécifiez `OpenMonitoring`, les deux exportateurs ne peuvent pas être désactivés en même temps.

# Configurer un hôte Prometheus sur une instance Amazon EC2
<a name="set-up-prometheus-host"></a>

Cette procédure décrit comment configurer un hôte Prometheus à l'aide d'un fichier prometheus.yml.

1. Téléchargez le serveur Prometheus à partir de [https://prometheus.io/download/#prometheus](https://prometheus.io/download/#prometheus) vers votre instance Amazon EC2.

1. Extrayez le fichier téléchargé dans un répertoire et allez dans ce dernier.

1. Créez un fichier avec le contenu suivant et appelez-le `prometheus.yml`.

   ```
   # file: prometheus.yml
   # my global config
   global:
     scrape_interval:     60s
   
   # A scrape configuration containing exactly one endpoint to scrape:
   # Here it's Prometheus itself.
   scrape_configs:
     # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
     - job_name: 'prometheus'
       static_configs:
       # 9090 is the prometheus server port
       - targets: ['localhost:9090']
     - job_name: 'broker'
       file_sd_configs:
       - files:
         - 'targets.json'
   ```

1. Utilisez l'[ListNodes](https://docs.aws.amazon.com//msk/1.0/apireference/clusters-clusterarn-nodes.html#ListNodes)opération pour obtenir la liste des courtiers de votre cluster.

1. Créez un fichier appelé `targets.json` avec le JSON suivant. Remplacez *broker\$1dns\$11**broker\$1dns\$12*, et le reste des noms DNS des courtiers par les noms DNS que vous avez obtenus pour vos courtiers à l'étape précédente. Incluez tous les agents que vous avez obtenus à l'étape précédente. Amazon MSK utilise le port 11001 pour JMX Exporter et le port 11002 pour Node Exporter.

------
#### [ ZooKeeper mode targets.json ]

   ```
   [
     {
       "labels": {
         "job": "jmx"
       },
       "targets": [
         "broker_dns_1:11001",
         "broker_dns_2:11001",
         .
         .
         .
         "broker_dns_N:11001"
       ]
     },
     {
       "labels": {
         "job": "node"
       },
       "targets": [
         "broker_dns_1:11002",
         "broker_dns_2:11002",
         .
         .
         .
         "broker_dns_N:11002"
       ]
     }
   ]
   ```

------
#### [ KRaft mode targets.json ]

   ```
   [
     {
       "labels": {
         "job": "jmx"
       },
       "targets": [
         "broker_dns_1:11001",
         "broker_dns_2:11001",
         .
         .
         .
         "broker_dns_N:11001",
         "controller_dns_1:11001",
         "controller_dns_2:11001",
         "controller_dns_3:11001"
       ]
     },
     {
       "labels": {
         "job": "node"
       },
       "targets": [
         "broker_dns_1:11002",
         "broker_dns_2:11002",
         .
         .
         .
         "broker_dns_N:11002"
       ]
     }
   ]
   ```

------
**Note**  
Pour extraire les métriques JMX des KRaft contrôleurs, ajoutez les noms DNS des contrôleurs en tant que cibles dans le fichier JSON. Par exemple : `controller_dns_1:11001` en `controller_dns_1` remplaçant par le nom DNS réel du contrôleur.

1. Pour démarrer le serveur Prometheus sur votre instance Amazon EC2, exécutez la commande suivante dans le répertoire où vous avez extrait les fichiers Prometheus et enregistré `prometheus.yml` et `targets.json`.

   ```
   ./prometheus
   ```

1. Recherchez l'adresse IP publique IPv4 de l'instance Amazon EC2 sur laquelle vous avez exécuté Prometheus à l'étape précédente. Vous aurez besoin de cette adresse IP publique lors de l’étape suivante.

1. Pour accéder à l'interface utilisateur Web de Prometheus, ouvrez un navigateur qui peut accéder à votre instance Amazon EC2, puis rendez-vous sur, *Prometheus-Instance-Public-IP* où se trouve l'adresse IP publique que vous avez obtenue `Prometheus-Instance-Public-IP:9090` à l'étape précédente.

# Utiliser les métriques Prometheus
<a name="prometheus-metrics"></a>

Toutes les métriques émises par Apache Kafka vers JMX sont accessibles en utilisant une surveillance ouverte avec Prometheus. Pour plus d'informations sur les métriques d’Apache Kafka, consultez [Surveillance](https://kafka.apache.org/documentation/#monitoring) dans la documentation Apache Kafka. Outre les métriques Apache Kafka, les métriques relatives au retard de consommation sont également disponibles sur le port 11001 sous le nom JMX. MBean `kafka.consumer.group:type=ConsumerLagMetrics` Vous pouvez également utiliser Prometheus Node Exporter pour obtenir des métriques de l'UC et du disque pour vos agents sur le port 11002.

# Stockez les statistiques de Prometheus dans Amazon Managed Service for Prometheus
<a name="managed-service-prometheus"></a>

Amazon Managed Service for Prometheus est un service de surveillance et d'alerte compatible avec Prometheus que vous pouvez utiliser pour surveiller les clusters Amazon MSK. Il s'agit d'un service entièrement géré qui met automatiquement à l'échelle l'ingestion, le stockage, l'interrogation et l'alerte de vos métriques. Il s'intègre également aux services AWS de sécurité pour vous donner un accès rapide et sécurisé à vos données. Vous pouvez utiliser le langage de requête open source PromQL pour interroger vos métriques et émettre des alertes à leur sujet.

Pour plus d'informations, consultez [Démarrage avec Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-getting-started.html).

# Surveillez les retards des consommateurs
<a name="consumer-lag"></a>

La surveillance du retard des consommateurs vous permet d'identifier les consommateurs lents ou bloqués qui ne suivent pas les dernières données disponibles dans une rubrique. Si nécessaire, vous pouvez ensuite prendre des mesures correctives, telles que la mise à l'échelle ou le redémarrage de ces consommateurs. Pour surveiller le retard des consommateurs, vous pouvez utiliser Amazon CloudWatch ou ouvrir la surveillance avec Prometheus.

Les métriques de retard des consommateurs quantifient la différence entre les dernières données écrites dans vos rubriques et les données lues par vos applications. Amazon MSK fournit les indicateurs de retard de consommation suivants, que vous pouvez obtenir via Amazon CloudWatch ou via une surveillance ouverte avec Prometheus :,,, et. `EstimatedMaxTimeLag` `EstimatedTimeLag` `MaxOffsetLag` `OffsetLag` `SumOffsetLag` Pour en savoir plus sur ces métriques, consultez [Mesures Amazon MSK pour le suivi des courtiers standard avec CloudWatch](metrics-details.md).

Amazon MSK prend en charge les métriques de retard des consommateurs pour les clusters utilisant la version 2.2.1 ou ultérieure d'Apache Kafka. Lorsque vous travaillez avec Kafka et les CloudWatch métriques, tenez compte des points suivants :
+ Les mesures de retard des consommateurs ne sont émises que si un groupe de consommateurs est dans un état STABLE ou VIDE. Un groupe de consommateurs est STABLE une fois le rééquilibrage terminé avec succès, ce qui garantit que les partitions sont réparties uniformément entre les consommateurs.
+ Les indicateurs de retard des consommateurs sont absents dans les scénarios suivants :
  + Si le groupe de consommateurs est instable.
  + Le nom du groupe de consommateurs contient deux points (:).
  + Vous n'avez pas défini la compensation de consommation pour le groupe de consommateurs.
+ Les noms des groupes de consommateurs sont utilisés comme dimensions pour les mesures de retard des consommateurs dans CloudWatch. [Alors que Kafka prend en charge les caractères UTF-8 dans les noms de groupes de consommateurs, il ne CloudWatch prend en charge que les caractères ASCII pour les valeurs de dimension.](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_Dimension.html) Si vous utilisez des caractères non ASCII dans les noms de groupes de consommateurs, supprimez les indicateurs de CloudWatch latence des consommateurs. Pour vous assurer que les indicateurs de retard de consommation sont correctement capturés CloudWatch, vous ne devez utiliser que des caractères ASCII dans les noms de vos groupes de consommateurs.

# Utiliser les alertes de capacité de stockage Amazon MSK
<a name="cluster-alerts"></a>

Sur les clusters provisionnés par Amazon MSK, vous choisissez la capacité de stockage principale du cluster. Si vous épuisez la capacité de stockage d’un agent dans votre cluster provisionné, cela peut affecter sa capacité à produire et à consommer des données, entraînant des temps d’arrêt coûteux. Amazon MSK propose des CloudWatch métriques pour vous aider à surveiller la capacité de stockage de votre cluster. Toutefois, pour vous permettre de détecter et de résoudre plus facilement les problèmes de capacité de stockage, Amazon MSK vous envoie automatiquement des alertes dynamiques relatives à la capacité de stockage du cluster. Les alertes relatives à la capacité de stockage incluent des recommandations concernant les étapes à court et à long terme pour gérer la capacité de stockage de votre cluster. Depuis la [console Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), vous pouvez utiliser les liens rapides contenus dans les alertes pour prendre immédiatement les mesures recommandées.

Il existe deux types d’alertes relatives à la capacité de stockage MSK : les alertes proactives et les alertes correctives.
+ Les alertes de capacité de stockage proactives (« Action requise ») vous avertissent des problèmes de stockage potentiels liés à votre cluster. Lorsqu’un agent d’un cluster MSK a utilisé plus de 60 % ou 80 % de sa capacité de stockage sur disque, vous recevez des alertes proactives pour l’agent concerné. 
+ Les alertes de capacité de stockage correctives (« Action critique requise ») vous obligent à prendre des mesures correctives pour résoudre un problème critique de cluster lorsque l’un des agents de votre cluster MSK n’a plus de capacité de stockage sur disque.

Amazon MSK envoie automatiquement ces alertes à la [console Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), au [AWS Health Dashboard](https://aws.amazon.com/premiumsupport/technology/aws-health/) EventBridge, à [Amazon](https://aws.amazon.com/pm/eventbridge/) et aux contacts e-mail associés à votre AWS compte. Vous pouvez également [configurer Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-api-destination-partners.html) pour envoyer ces alertes à Slack ou à des outils tels que New Relic et Datadog. 

Les alertes de capacité de stockage sont activées par défaut pour tous les clusters provisionnés de MSK et ne peuvent pas être désactivées. Cette fonctionnalité est disponible dans toutes les régions où MSK est disponible.

## Surveillez les alertes de capacité de stockage
<a name="cluster-alerts-monitoring"></a>

Vous pouvez rechercher les alertes relatives à la capacité de stockage de plusieurs manières :
+ Accédez à la [console Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/). Les alertes relatives à la capacité de stockage sont affichées dans le volet des alertes du cluster pendant 90 jours. Elles contiennent des recommandations et des actions de liaison en un seul clic pour résoudre les problèmes de capacité de stockage sur disque.
+ Utilisez [ListClustersListClusters](https://docs.aws.amazon.com/msk/1.0/apireference/clusters.html#ListClusters)[V2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters.html#ListClustersV2) ou [DescribeClusterV2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters-clusterarn.html#DescribeClusterV2) APIs pour afficher toutes `CustomerActionStatus` les alertes d'un cluster. [DescribeCluster](https://docs.aws.amazon.com/msk/1.0/apireference/clusters-clusterarn.html#DescribeCluster)
+ Accédez au [tableau de bord AWS](https://aws.amazon.com/premiumsupport/technology/aws-health/) pour consulter les alertes de MSK et d’autres services AWS .
+ Configurez [AWS Health API](https://docs.aws.amazon.com/health/latest/ug/health-api.html) et [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-api-destination-partners.html) pour acheminer les notifications d'alerte vers des plateformes tierces telles que Datadog et NewRelic Slack.