As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Monitorar um cluster do Amazon MSK Provisioned
<a name="monitoring"></a>

Há várias maneiras pelas quais o Amazon MSK ajuda a monitorar o status de um cluster do Amazon MSK Provisioned.
+ O Amazon MSK reúne métricas do Apache Kafka e as envia para a Amazon, CloudWatch onde você pode visualizá-las. Para obter mais informações sobre as métricas do Apache Kafka, incluindo as que surgem com o Amazon MSK, consulte [Monitoramento](http://kafka.apache.org/documentation/#monitoring) na documentação do Apache Kafka.
+ Também é possível monitorar o cluster do MSK com o Prometheus, uma aplicação de código aberto para monitoramento. Para obter informações sobre o Prometheus, consulte [Visão geral](https://prometheus.io/docs/introduction/overview/) na documentação do Prometheus. Para saber como monitorar o cluster do MSK Provisioned com o Prometheus, consulte [Monitore um cluster do MSK Provisioned com o Prometheus](open-monitoring.md).
+ (Somente agentes padrão) O Amazon MSK ajuda a monitorar a capacidade de armazenamento em disco ao enviar automaticamente alertas de capacidade de armazenamento quando um cluster do Provisioned está prestes a atingir o limite de capacidade de armazenamento. Os alertas também fornecem recomendações sobre as melhores etapas a serem seguidas para resolver os problemas detectados. Isso ajuda você a identificar e resolver rapidamente os problemas de capacidade de disco antes que eles se tornem críticos. O Amazon MSK envia automaticamente esses alertas para o [console do Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), para a Health Dashboard Amazon EventBridge e para os contatos de e-mail da sua AWS conta. Para obter mais informações sobre alertas de capacidade de armazenamento, consulte [Usar alertas de capacidade de armazenamento do Amazon MSK](cluster-alerts.md).

**Topics**
+ [Veja as métricas do Amazon MSK usando CloudWatch](cloudwatch-metrics.md)
+ [Métricas do Amazon MSK para monitorar corretores padrão com CloudWatch](metrics-details.md)
+ [Métricas do Amazon MSK para monitorar corretores Express com CloudWatch](metrics-details-express.md)
+ [Monitore um cluster do MSK Provisioned com o Prometheus](open-monitoring.md)
+ [Monitorar atrasos do consumidor](consumer-lag.md)
+ [Usar alertas de capacidade de armazenamento do Amazon MSK](cluster-alerts.md)

# Veja as métricas do Amazon MSK usando CloudWatch
<a name="cloudwatch-metrics"></a>

Você pode monitorar as métricas do Amazon MSK usando o CloudWatch console, a linha de comando ou a CloudWatch API. Os procedimentos a seguir mostram como acessar as métricas usando os seguintes métodos: 

**Para acessar métricas usando o CloudWatch console**

Faça login no Console de gerenciamento da AWS e abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/).

1. No painel de navegação, selecione **Métricas**.

1. Escolha a guia **Todas as métricas** e escolha **AWS/Kafka**.

1. Para visualizar métricas em nível de tópico, escolha **Topic, Broker ID, Cluster Name (Tópico, ID do agente, nome do cluster)**; para métricas em nível de agente, escolha **Broker ID, Cluster Name (ID do agente, nome do cluster)** e, para métricas em nível de cluster, escolha **Cluster Name (Nome do cluster)**.

1. (Opcional) No painel gráfico, selecione uma estatística e um período de tempo e, em seguida, crie um CloudWatch alarme usando essas configurações.

**Para acessar métricas usando o AWS CLI**  
Use as [métricas e [get-metric-statistics](https://docs.aws.amazon.com/cli/latest/reference/cloudwatch/get-metric-statistics.html)os comandos da lista](https://docs.aws.amazon.com/cli/latest/reference/cloudwatch/list-metrics.html).

**Para acessar métricas usando a CloudWatch CLI**  
Use os comandos [mon-list-metrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/cli/cli-mon-list-metrics.html) e [mon-get-stats](https://docs.aws.amazon.com/AmazonCloudWatch/latest/cli/cli-mon-get-stats.html).

**Para acessar métricas usando a CloudWatch API**  
Use as operações [ListMetrics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_ListMetrics.html) e [GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html).

# Métricas do Amazon MSK para monitorar corretores padrão com CloudWatch
<a name="metrics-details"></a>

O Amazon MSK se integra à Amazon CloudWatch para que você possa coletar, visualizar e analisar CloudWatch métricas para seus corretores MSK Standard. As métricas que você configura para seus clusters provisionados pelo MSK são coletadas e enviadas automaticamente em intervalos de 1 CloudWatch minuto. Você pode definir o nível de monitoramento de um cluster do MSK Provisioned como um dos seguintes: `DEFAULT`, `PER_BROKER`, `PER_TOPIC_PER_BROKER` ou `PER_TOPIC_PER_PARTITION`. As tabelas nas seções a seguir mostram todas as métricas disponíveis em cada nível de monitoramento.

**nota**  
Os nomes de algumas métricas do Amazon MSK para CloudWatch monitoramento foram alterados na versão 3.6.0 e superior. Use os novos nomes para monitorar essas métricas. Para métricas com nomes alterados, a tabela abaixo mostra o nome usado nas versões 3.6.0 e posteriores, seguido pelo nome na versão 2.8.2.tiered.

As métricas no nível `DEFAULT` são gratuitas. Os preços de outras métricas estão descritos na página de [ CloudWatchpreços da Amazon](https://aws.amazon.com/cloudwatch/pricing/).

## Monitoramento no nível `DEFAULT`
<a name="default-metrics"></a>

As métricas descritas na tabela a seguir estão disponíveis no nível de monitoramento `DEFAULT`. Elas são gratuitas.


| Nome | Quando visível | Dimensões | Description | 
| --- | --- | --- | --- | 
| ActiveControllerCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | Somente um controlador por cluster deve estar ativo em qualquer momento. | 
| BurstBalance |  Depois que o cluster passa para o estado ACTIVE.  |  Nome do cluster, ID do agente  |  O saldo restante dos créditos de intermitência de entrada/saída para volumes do EBS no cluster. Use-o para investigar a latência ou a diminuição do throughput. `BurstBalance` não é relatado para volumes do EBS quando o desempenho de linha de base de um volume for maior que o desempenho máximo de intermitência. Para obter mais informações, consulte [Créditos de E/S e desempenho de intermitência](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ebs-volume-types.html#IOcredit).  | 
| BytesInPerSec | Depois de criar um tópico. | Nome do cluster, ID do agente, tópico | O número de bytes por segundo recebidos dos clientes. Essa métrica está disponível por agente e também por tópico. | 
| BytesOutPerSec | Depois de criar um tópico. | Nome do cluster, ID do agente, tópico | O número de bytes por segundo enviados aos clientes. Essa métrica está disponível por agente e também por tópico. | 
| ClientConnectionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente, autenticação de cliente | O número de conexões de cliente autenticadas e ativas. | 
| ConnectionCount | Depois que o cluster passa para o estado ACTIVE. |  Nome do cluster, ID do agente  | O número de conexões ativas autenticadas, não autenticadas e entre agentes.  | 
| CPUCreditBalance  |  Depois que o cluster passa para o estado ACTIVE.  |  Nome do cluster, ID do agente  |  O número de créditos ganhos de CPU que um agente acumulou desde que foi iniciado. Os créditos são acumulados no saldo de créditos após terem sido ganhos e são removidos do saldo de créditos quando são gastos. A falta de saldo de créditos de CPU pode afetar negativamente o desempenho do cluster. Você pode adotar medidas para reduzir a carga da CPU. Por exemplo, você pode reduzir o número de solicitações de clientes ou atualizar o tipo de agente para um tipo de agente M5.  | 
| CpuIdle | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de tempo ocioso da CPU. | 
| CpuIoWait | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O percentual de tempo ocioso da CPU durante uma operação de disco pendente. | 
| CpuSystem | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de CPU no espaço do kernel. | 
| CpuUser | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de CPU no espaço do usuário. | 
| GlobalPartitionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | O número de partições em todos os tópicos no cluster, excluindo réplicas. Como GlobalPartitionCount não inclui réplicas, a soma dos PartitionCount valores pode ser maior do que GlobalPartitionCount se o fator de replicação de um tópico for maior que 1. | 
| GlobalTopicCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | Número total de tópicos em todos os agentes no cluster. | 
| EstimatedMaxTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Nome do cluster, grupo de consumidores, tópico | Estimativa de tempo (em segundos) para drenar MaxOffsetLag. | 
| KafkaAppLogsDiskUsed | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de espaço em disco usada para logs de aplicativos. | 
| KafkaDataLogsDiskUsed (dimensão Cluster Name, Broker ID) | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de espaço em disco usada para logs de dados. | 
| LeaderCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número total de líderes de partições por agente, sem incluir réplicas. | 
| MaxOffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Nome do cluster, grupo de consumidores, tópico | O atraso máximo de deslocamento entre todas as partições em um tópico. | 
| MemoryBuffered | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, da memória armazenada em buffer para o agente. | 
| MemoryCached | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, da memória armazenada em cache para o agente. | 
| MemoryFree | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, de memória que é gratuita e disponível para o agente. | 
| HeapMemoryAfterGC  |  Depois que o cluster passa para o estado ACTIVE.  |  Nome do cluster, ID do agente  | O percentual da memória total da pilha em uso após a coleta de resíduos. | 
| MemoryUsed | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, de memória que está em uso pelo agente. | 
| MessagesInPerSec | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de mensagens recebidas por segundo do agente. | 
| NetworkRxDropped | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes de recebimento descartados. | 
| NetworkRxErrors | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de erros de recepção da rede para o agente. | 
| NetworkRxPackets | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes recebidos pelo agente. | 
| NetworkTxDropped | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes de transmissão descartados. | 
| NetworkTxErrors | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de erros de transmissão da rede para o agente. | 
| NetworkTxPackets | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes transmitidos pelo agente. | 
| OfflinePartitionsCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | Número total de partições que estão offline no cluster. | 
| PartitionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número total de partições de tópico por agente, incluindo réplicas. | 
| ProduceTotalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tempo médio de produção em milissegundos. | 
| RequestBytesMean | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número médio de bytes de solicitações do agente. | 
| RequestTime | Após o controle de utilização da solicitação ser aplicado. | Nome do cluster, ID do agente | O tempo médio gasto em milissegundos em threads de rede e de E/S do agente para processar solicitações. | 
| RootDiskUsed | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem do disco raiz usado pelo agente. | 
| RollingEstimatedTimeLagMax\$1 | Depois que o grupo de consumidores consome de um tópico. | Nome do cluster, grupo de consumidores, tópico | Estimativa de tempo máximo contínuo (em segundos) para eliminar o atraso de deslocamento da partição em todas as partições em um tópico. | 
| SumOffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Nome do cluster, grupo de consumidores, tópico | O atraso de deslocamento agregado para todas as partições em um tópico. | 
| SwapFree | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, de memória de swap que está disponível para o agente. | 
| SwapUsed  | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho em bytes de memória de swap que está em uso para o agente. | 
| TrafficShaping  |  Depois que o cluster passa para o estado ACTIVE.  |  Nome do cluster, ID do agente  |  Métricas de alto nível que indicam o número de pacotes modelados (descartados ou enfileirados) devido ao excesso de alocações de rede. É possível obter detalhes mais aprofundados com as métricas de PER\$1BROKER.  | 
| UnderMinIsrPartitionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de partições em minIsr do agente. | 
| UnderReplicatedPartitions | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de partições sub-replicadas do agente. | 
| UserPartitionExists | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | Uma métrica booleana que indica a presença de uma partição de propriedade do usuário em um agente. O valor 1 indica a presença de partições no agente. | 
| ZooKeeperRequestLatencyMsMean  | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | Para cluster ZooKeeper baseado. A latência média em milissegundos para ZooKeeper solicitações do Apache do broker. | 
| ZooKeeperSessionState | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | Para cluster ZooKeeper baseado. Status da conexão da ZooKeeper sessão do broker, que pode ser um dos seguintes: NOT\$1CONNECTED: '0.0', ASSOCIATING: '0.1', CONNECTING: '0.5', CONNECTEDREADONLY: '0.8', CONNECTED: '1.0', CLOSED: '5.0', AUTH\$1FAILED: '10.0'. | 

\$1 As métricas de atraso do consumidor exigem nomes de grupos de consumidores somente em ASCII e têm requisitos de emissão específicos. Para obter mais informações, consulte [Monitorar atrasos do consumidor](consumer-lag.md).

## Monitoramento no nível `PER_BROKER`
<a name="broker-metrics"></a>

Ao definir o nível de monitoramento como `PER_BROKER`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas de nível `DEFAULT`. Você paga pelas métricas na tabela a seguir, enquanto as métricas de nível `DEFAULT` continuam gratuitas. As métricas nesta tabela têm as seguintes dimensões: nome do cluster, ID do agente.


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| BwInAllowanceExceeded | Depois que o cluster passa para o estado ACTIVE. |  Número de pacotes formados porque a largura de banda agregada de entrada excedeu o máximo para o agente.  | 
| BwOutAllowanceExceeded | Depois que o cluster passa para o estado ACTIVE. |  Número de pacotes formados porque a largura de banda agregada de saída excedeu o máximo para o agente.  | 
| ConntrackAllowanceExceeded  | Depois que o cluster passa para o estado ACTIVE. |  Número de pacotes formados porque o monitoramento de conexão excedeu o máximo para o agente. O monitoramento de conexão está relacionado a grupos de segurança que monitoram cada conexão estabelecida a fim de garantir que os pacotes de retorno sejam entregues conforme esperado.   | 
| ConnectionCloseRate | Depois que o cluster passa para o estado ACTIVE. |  O número de conexões fechadas por segundo por receptor. Esse número é agregado por receptor e filtrado para os receptores do cliente.  | 
| ConnectionCreationRate | Depois que o cluster passa para o estado ACTIVE. |  O número de novas conexões estabelecidas por segundo por receptor. Esse número é agregado por receptor e filtrado para os receptores do cliente.  | 
| CpuCreditUsage | Depois que o cluster passa para o estado ACTIVE. |  O número de créditos de CPU gastos pelo agente. A falta de saldo de créditos de CPU pode afetar negativamente o desempenho do cluster. Você pode adotar medidas para reduzir a carga da CPU. Por exemplo, você pode reduzir o número de solicitações de clientes ou atualizar o tipo de agente para um tipo de agente M5.  | 
| FetchConsumerLocalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor é processada no líder. | 
| FetchConsumerRequestQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor aguarda na fila de solicitações. | 
| FetchConsumerResponseQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor aguarda na fila de resposta. | 
| FetchConsumerResponseSendTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio, em milissegundos, para que o consumidor envie uma resposta. | 
| FetchConsumerTotalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo total médio em milissegundos que os consumidores gastam obtendo dados do agente. | 
| FetchFollowerLocalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do seguidor é processada no líder. | 
| FetchFollowerRequestQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação de seguidor aguarda na fila de solicitações. | 
| FetchFollowerResponseQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação de seguidor aguarda na fila de resposta. | 
| FetchFollowerResponseSendTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos para o seguidor enviar uma resposta. | 
| FetchFollowerTotalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo total médio em milissegundos que os seguidores gastam obtendo e dados do agente. | 
| FetchMessageConversionsPerSec | Depois de criar um tópico. | O número de conversões de mensagens de busca por segundo do agente. | 
| FetchThrottleByteRate | Após o controle de utilização da largura de banda ser aplicado. | O número de bytes limitados por segundo. | 
| FetchThrottleQueueSize | Após o controle de utilização da largura de banda ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| FetchThrottleTime | Após o controle de utilização da largura de banda ser aplicado. | O tempo médio de controle de utilização de busca em milissegundos. | 
| IAMNumberOfConnectionRequests | Depois que o cluster passa para o estado ACTIVE. | O número de solicitações de autenticação do IAM por segundo. | 
| IAMTooManyConnections | Depois que o cluster passa para o estado ACTIVE. | O número de conexões tentadas acima de 100. 0 significa que o número de conexões está dentro do limite. Se >0, o limite do controle de utilização está sendo excedido e você precisa reduzir o número de conexões. | 
| LinklocalAllowanceExceeded  | Depois que o cluster passa para o estado ACTIVE. |  Número de pacotes descartados porque o PPS do tráfego para os serviços de proxy local excedeu o máximo para a interface da rede. Isso afeta o tráfego para o serviço de DNS, o Instance Metadata Service e o Amazon Time Sync Service.  | 
| NetworkProcessorAvgIdlePercent | Depois que o cluster passa para o estado ACTIVE. | A porcentagem média do tempo em que os processadores de rede estão ociosos. | 
| PpsAllowanceExceeded | Depois que o cluster passa para o estado ACTIVE. |  O número de pacotes formados porque o PPS bidirecional excedeu o máximo para o agente.  | 
| ProduceLocalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que a solicitação leva para ser processada no líder. | 
| ProduceMessageConversionsPerSec | Depois de criar um tópico. | O número de conversões de mensagens de produção por segundo do agente. | 
| ProduceMessageConversionsTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos gasto em conversões de formato de mensagem. | 
| ProduceRequestQueueTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que as mensagens de solicitação gastam na fila. | 
| ProduceResponseQueueTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que as mensagens de resposta gastam na fila. | 
| ProduceResponseSendTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos gasto no envio de mensagens de resposta. | 
| ProduceThrottleByteRate | Após o controle de utilização da largura de banda ser aplicado. | O número de bytes limitados por segundo. | 
| ProduceThrottleQueueSize | Após o controle de utilização da largura de banda ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| ProduceThrottleTime | Após o controle de utilização da largura de banda ser aplicado. | O tempo médio do controle de utilização da produção em milissegundos. | 
| ProduceTotalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio de produção em milissegundos. | 
|  `RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered)`  |  Depois de haver um produtor/consumidor.  |  O número total de bytes transferidos do armazenamento em camadas como resposta às buscas do consumidor. Essa métrica inclui todas as partições de tópicos que contribuem para o tráfego de transferência de dados downstream. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) |  Depois que houver um produtor/consumidor.  |  O número total de bytes transferidos para o armazenamento em camadas, incluindo dados de segmentos de log, índices e outros arquivos auxiliares. Essa métrica inclui todas as partições de tópicos que contribuem para o tráfego de transferência de dados upstream. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteLogManagerTasksAvgIdlePercent |  Depois que o cluster passa para o estado ACTIVE.  | O percentual médio do tempo que o gerenciador remoto de logs ficou ocioso. O gerenciador remoto de logs transfere dados do agente para o armazenamento em camadas. Categoria: atividade interna. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogReaderAvgIdlePercent |  Depois que o cluster passa para o estado ACTIVE.  | O percentual médio do tempo que o leitor remoto de logs ficou ocioso. O leitor remoto de logs transfere dados do armazenamento remoto para o agente em resposta às buscas do consumidor. Categoria: atividade interna. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogReaderTaskQueueSize |  Depois que o cluster passa para o estado ACTIVE.  | O número de tarefas responsáveis por leituras do armazenamento em camadas que estão aguardando para serem agendadas. Categoria: atividade interna. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) |  Depois que o cluster passa para o estado ACTIVE.  | A taxa total de erros em resposta às solicitações de leitura que o agente especificado enviou ao armazenamento em camadas para recuperar dados em resposta às buscas do consumidor. Essa métrica inclui todas as partições de tópicos que contribuem para o tráfego de transferência de dados downstream. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) |  Depois que o cluster passa para o estado ACTIVE.  | O número total de solicitações de leitura que o agente especificado enviou ao armazenamento em camadas para recuperar dados em resposta às buscas do consumidor. Essa métrica inclui todas as partições de tópicos que contribuem para o tráfego de transferência de dados downstream. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) |  Depois que o cluster passa para o estado ACTIVE.  | A taxa total de erros em resposta às solicitações de gravação que o agente especificado enviou ao armazenamento em camadas para transferir dados upstream. Essa métrica inclui todas as partições de tópicos que contribuem para o tráfego de transferência de dados upstream. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogSizeBytes | Depois que o cluster passa para o estado ACTIVE. |  O número de bytes armazenados na camada remota. Essa métrica está disponível para clusters com armazenamento em camadas do Apache Kafka versão 3.7.x no Amazon MSK.  | 
| ReplicationBytesInPerSec | Depois de criar um tópico. | O número de bytes por segundo recebidos dos outros agentes. | 
| ReplicationBytesOutPerSec | Depois de criar um tópico. | O número de bytes por segundo enviados para outros agentes. | 
| RequestExemptFromThrottleTime | Após o controle de utilização da solicitação ser aplicado. | O tempo médio gasto em milissegundos em threads de rede e de E/S do agente para processar solicitações isentas de controle de utilização. | 
| RequestHandlerAvgIdlePercent | Depois que o cluster passa para o estado ACTIVE. | A porcentagem média do tempo em que os threads do manipulador de solicitações estão ociosos. | 
| RequestThrottleQueueSize | Após o controle de utilização da solicitação ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| RequestThrottleTime | Após o controle de utilização da solicitação ser aplicado. | O tempo médio do controle de utilização de solicitações em milissegundos. | 
| TcpConnections | Depois que o cluster passa para o estado ACTIVE. |  Mostra o número de segmentos TCP de entrada e saída com o sinalizador SYN definido.  | 
| RemoteCopyLagBytes (TotalTierBytesLag in v2.8.2.tiered) | Depois de criar um tópico. | O número total de bytes dos dados que são elegíveis para classificação hierárquica no agente, mas que ainda não foram transferidos para o armazenamento em camadas. Essas métricas mostram a eficiência da transferência de dados upstream. Conforme o atraso aumenta, a quantidade de dados que não persiste no armazenamento em camadas aumenta. Categoria: atraso de arquivamento. Essa não é uma métrica KIP-405. | 
| TrafficBytes | Depois que o cluster passa para o estado ACTIVE. |  Mostra o tráfego de rede em bytes gerais entre clientes (produtores e consumidores) e agentes. O tráfego entre agentes não é relatado.  | 
| VolumeQueueLength | Depois que o cluster passa para o estado ACTIVE. |  O número de solicitações de operação de leitura e gravação aguardando conclusão em um período especificado.  | 
|  VolumeReadBytes  | Depois que o cluster passa para o estado ACTIVE. |  O número de bytes lidos durante um período especificado.  | 
| VolumeReadOps  | Depois que o cluster passa para o estado ACTIVE. |  O número de operações de leitura durante um período especificado.  | 
| VolumeTotalReadTime  | Depois que o cluster passa para o estado ACTIVE. |  O número total de segundos gastos por todas as operações de leitura que foram concluídas durante um período especificado.  | 
| VolumeTotalWriteTime  | Depois que o cluster passa para o estado ACTIVE. |  O número total de segundos gastos por todas as operações de gravação que foram concluídas durante um período especificado.  | 
| VolumeWriteBytes  | Depois que o cluster passa para o estado ACTIVE. |  O número de bytes gravados durante um período especificado.  | 
| VolumeWriteOps  | Depois que o cluster passa para o estado ACTIVE. |  O número de operações de gravação durante um período especificado.  | 

## Monitoramento no nível `PER_TOPIC_PER_BROKER`
<a name="broker-topic-metrics"></a>

Ao definir o nível de monitoramento como `PER_TOPIC_PER_BROKER`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas dos níveis `PER_BROKER` e DEFAULT. Somente as métricas de nível `DEFAULT` são gratuitas. As métricas nesta tabela têm as seguintes dimensões: nome do cluster, ID do agente, tópico.

**Importante**  
Para um cluster do Amazon MSK que use o Apache Kafka 2.4.1 ou uma versão mais recente, as métricas na tabela a seguir só aparecerão depois que os valores ficarem diferentes de zero pela primeira vez. Por exemplo, para ver `BytesInPerSec`, um ou mais produtores devem primeiro enviar dados para o cluster. 


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| FetchMessageConversionsPerSec | Depois de criar um tópico. | O número de mensagens obtidas convertidas por segundo. | 
| MessagesInPerSec | Depois de criar um tópico. | O número de mensagens recebidas por segundo. | 
| ProduceMessageConversionsPerSec | Depois de criar um tópico. | O número de conversões por segundo de mensagens produzidas. | 
| RemoteFetchBytesPerSec (RemoteBytesInPerSec in v2.8.2.tiered) |  Após criar um tópico e o tópico estiver produzindo/consumindo.  |  O número de bytes transferidos do armazenamento em camadas em resposta às buscas do consumidor para o tópico e o agente especificados. Essa métrica inclui todas as partições do tópico que contribuem para o tráfego de transferência de dados downstream no agente especificado. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteCopyBytesPerSec (RemoteBytesOutPerSec in v2.8.2.tiered) | Após criar um tópico e o tópico estiver produzindo/consumindo. |  O número de bytes transferidos para o armazenamento em camadas, para o tópico e o agente especificados. Essa métrica inclui todas as partições do tópico que contribuem para o tráfego de transferência de dados upstream no agente especificado. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage).  | 
| RemoteFetchErrorsPerSec (RemoteReadErrorPerSec in v2.8.2.tiered) | Após criar um tópico e o tópico estiver produzindo/consumindo. | A taxa de erros em resposta às solicitações de leitura que o agente especificado envia ao armazenamento em camadas para recuperar dados em resposta às buscas do consumidor sobre o tópico especificado. Essa métrica inclui todas as partições do tópico que contribuem para o tráfego de transferência de dados downstream no agente especificado. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteFetchRequestsPerSec (RemoteReadRequestsPerSec in v2.8.2.tiered) | Após criar um tópico e o tópico estiver produzindo/consumindo. | O número de solicitações de leitura que o agente especificado envia ao armazenamento em camadas para recuperar dados em resposta às buscas do consumidor sobre o tópico especificado. Essa métrica inclui todas as partições do tópico que contribuem para o tráfego de transferência de dados downstream no agente especificado. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteCopyErrorsPerSec (RemoteWriteErrorPerSec in v2.8.2.tiered) | Após criar um tópico e o tópico estiver produzindo/consumindo. | A taxa de erros em resposta às solicitações de gravação que o agente especificado envia ao armazenamento em camadas para transferir dados upstream. Essa métrica inclui todas as partições do tópico que contribuem para o tráfego de transferência de dados upstream no agente especificado. Categoria: taxas de tráfego e erro. Essa é uma métrica [KIP-405](https://cwiki.apache.org/confluence/display/KAFKA/KIP-405%3A+Kafka+Tiered+Storage). | 
| RemoteLogSizeBytes | Depois de criar um tópico. |  O número de bytes armazenados na camada remota. Essa métrica está disponível para clusters com armazenamento em camadas do Apache Kafka versão 3.7.x no Amazon MSK.  | 

## Monitoramento no nível `PER_TOPIC_PER_PARTITION`
<a name="topic-partition-metrics"></a>

Ao definir o nível de monitoramento como `PER_TOPIC_PER_PARTITION`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas dos níveis `PER_TOPIC_PER_BROKER`, `PER_BROKER` e DEFAULT. Somente as métricas de nível `DEFAULT` são gratuitas. As métricas nesta tabela têm as seguintes dimensões: grupo de consumidores, tópico, partição.


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| EstimatedTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Estimativa de tempo (em segundos) para drenar o atraso no deslocamento da partição. | 
| OffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Atraso do consumidor no nível de partição em número de deslocamentos. | 
| RollingEstimatedTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Estimativa do tempo de rolamento (em segundos) para eliminar o atraso no deslocamento da partição. | 

\$1 As métricas de atraso do consumidor exigem nomes de grupos de consumidores somente em ASCII e têm requisitos de emissão específicos. Para obter mais informações, consulte [Monitorar atrasos do consumidor](consumer-lag.md).

# Entenda os estados do cluster do MSK Provisioned
<a name="msk-cluster-states"></a>

A tabela a seguir descreve os estados possíveis de um cluster do MSK Provisioned e descrevem seus significados. A menos que especificado de outra forma, os estados de cluster do MSK Provisioned se aplicam aos tipos de agente Standard e Express. Esta tabela também descreve quais ações você pode e não pode realizar quando um cluster do MSK Provisioned estiver em um desses estados. Para descobrir o estado de um cluster, você pode acessar o Console de gerenciamento da AWS. Você também pode usar o comando [describe-cluster-v2](https://awscli.amazonaws.com/v2/documentation/api/latest/reference/kafka/describe-cluster-v2.html) ou a operação [DescribeClusterV2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters-clusterarn.html#DescribeClusterV2) para descrever o cluster provisionado. A descrição de um cluster inclui seu estado.


****  

| Estado do cluster do MSK Provisioned | Significado e ações possíveis | 
| --- | --- | 
| ATIVO |  Você pode produzir e consumir dados. Você também pode realizar AWS CLI operações e APIs do Amazon MSK no cluster.  | 
| CRIANDO |  O Amazon MSK está configurando o cluster do Provisioned. Você deve esperar que o cluster alcance o estado ATIVO antes de poder usá-lo para produzir ou consumir dados ou para executar a API do Amazon MSK ou AWS CLI operações neles.  | 
| EXCLUINDO | O cluster do Provisioned está sendo excluído. Você não pode usá-lo para produzir ou consumir dados. Você também não pode executar a API do Amazon MSK ou AWS CLI operações nela. | 
| FAILED | O processo de criação ou exclusão do cluster do Provisioned falhou. Você não pode usar o cluster para produzir ou consumir dados. Você pode excluir o cluster, mas não pode executar a API Amazon MSK nem AWS CLI atualizar operações nele. | 
| HEALING |  O Amazon MSK está executando uma operação interna, como a substituição de um agente não íntegro. Por exemplo, talvez o agente não esteja respondendo. Você ainda pode usar o cluster do Provisioned para produzir e consumir dados. No entanto, você não pode realizar operações de API ou AWS CLI atualizar a API do Amazon MSK no cluster até que ele retorne ao estado ATIVO.  | 
| MAINTENANCE | (Somente para agentes Standard) O Amazon MSK está realizando operações de manutenção de rotina no cluster. Essas operações de manutenção incluem a aplicação de patches de segurança. Você ainda pode usar o cluster para produzir e consumir dados. No entanto, você não pode realizar operações de atualização da API ou AWS CLI do Amazon MSK no cluster até que ele retorne ao estado ATIVO. O estado do cluster permanece ATIVO durante a manutenção dos agentes Express. Consulte [Aplicação de patches em clusters do MSK Provisioned](patching-impact.md). | 
| REBOOTING\$1BROKER | O Amazon MSK está reiniciando um agente. Você ainda pode usar o cluster do Provisioned para produzir e consumir dados. No entanto, você não pode realizar operações de API ou AWS CLI atualizar a API do Amazon MSK no cluster até que ele retorne ao estado ATIVO. | 
| ATUALIZANDO | Uma API ou AWS CLI operação do Amazon MSK iniciada pelo usuário está atualizando o cluster provisionado. Você ainda pode usar o cluster do Provisioned para produzir e consumir dados. No entanto, você não pode realizar nenhuma operação adicional de API ou AWS CLI atualização do Amazon MSK no cluster até que ele retorne ao estado ATIVO. | 

# Métricas do Amazon MSK para monitorar corretores Express com CloudWatch
<a name="metrics-details-express"></a>

O Amazon MSK se integra CloudWatch para que você possa coletar, visualizar e analisar CloudWatch métricas para seus corretores MSK Express. As métricas que você configura para seus clusters provisionados pelo MSK são coletadas e enviadas automaticamente em intervalos de 1 CloudWatch minuto. Você pode definir o nível de monitoramento de um cluster do MSK Provisioned como um dos seguintes: `DEFAULT`, `PER_BROKER`, `PER_TOPIC_PER_BROKER` ou `PER_TOPIC_PER_PARTITION`. As tabelas nas seções a seguir mostram as métricas disponíveis em cada nível de monitoramento.

As métricas no nível `DEFAULT` são gratuitas. Os preços de outras métricas estão descritos na página de [ CloudWatchpreços da Amazon](https://aws.amazon.com/cloudwatch/pricing/).

## Monitoramento de nível `DEFAULT` para agentes Express
<a name="express-default-metrics"></a>

As métricas descritas na tabela a seguir estão disponíveis gratuitamente no nível de monitoramento `DEFAULT`.


| Nome | Quando visível | Dimensões | Description | 
| --- | --- | --- | --- | 
| ActiveControllerCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | Somente um controlador por cluster deve estar ativo em qualquer momento. | 
| BytesInPerSec | Depois de criar um tópico. | Nome do cluster, ID do agente, tópico | O número de bytes por segundo recebidos dos clientes. Essa métrica está disponível por agente e também por tópico. | 
| BytesOutPerSec | Depois de criar um tópico. | Nome do cluster, ID do agente, tópico | O número de bytes por segundo enviados aos clientes. Essa métrica está disponível por agente e também por tópico. | 
| ClientConnectionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente, autenticação de cliente | O número de conexões de cliente autenticadas e ativas. | 
| ConnectionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de conexões ativas autenticadas, não autenticadas e entre agentes. | 
| CpuIdle | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de tempo ocioso da CPU. | 
| CpuSystem | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de CPU no espaço do kernel. | 
| CpuUser | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | A porcentagem de CPU no espaço do usuário. | 
| GlobalPartitionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | O número de partições em todos os tópicos no cluster, excluindo réplicas. Como `GlobalPartitionCount` não inclui réplicas, a soma dos valores de `PartitionCount` pode ser maior que `GlobalPartitionCount` se o fator de replicação de um tópico for maior que `1`. | 
| GlobalTopicCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | Número total de tópicos em todos os agentes no cluster. | 
| EstimatedMaxTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Grupo de consumidores, tópico | Estimativa de tempo (em segundos) para drenar `MaxOffsetLag`. | 
| LeaderCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número total de líderes de partições por agente, sem incluir réplicas. | 
| MaxOffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Grupo de consumidores, tópico | O atraso máximo de deslocamento entre todas as partições em um tópico. | 
| MemoryBuffered | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, da memória armazenada em buffer para o agente. | 
| MemoryCached | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, da memória armazenada em cache para o agente. | 
| MemoryFree | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, de memória que é gratuita e disponível para o agente. | 
| MemoryUsed | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tamanho, em bytes, de memória que está em uso pelo agente. | 
| MessagesInPerSec | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de mensagens recebidas por segundo do agente. | 
| NetworkRxDropped | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes de recebimento descartados. | 
| NetworkRxErrors | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de erros de recepção da rede para o agente. | 
| NetworkRxPackets | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes recebidos pelo agente. | 
| NetworkTxDropped | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes de transmissão descartados. | 
| NetworkTxErrors | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de erros de transmissão da rede para o agente. | 
| NetworkTxPackets | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número de pacotes transmitidos pelo agente. | 
| PartitionCount | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número total de partições de tópico por agente, incluindo réplicas. | 
| ProduceTotalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O tempo médio de produção em milissegundos. | 
| RequestBytesMean | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | O número médio de bytes de solicitações do agente. | 
| RequestTime | Após o controle de utilização da solicitação ser aplicado. | Nome do cluster, ID do agente | O tempo médio em milissegundos gasto na rede do agente e nos I/O threads para processar solicitações. | 
| RollingEstimatedTimeLagMax\$1 | Depois que o grupo de consumidores consome de um tópico. | Grupo de consumidores, tópico | Estimativa de tempo máximo contínuo (em segundos) para eliminar o atraso de deslocamento da partição em todas as partições em um tópico. | 
| StorageUsed | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster | O total de partições em todos os tópicos no cluster, excluindo réplicas. | 
| SumOffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Grupo de consumidores, tópico | O atraso de deslocamento agregado para todas as partições em um tópico. | 
| UserPartitionExists | Depois que o cluster passa para o estado ACTIVE. | Nome do cluster, ID do agente | Métrica booleana que indica a presença de uma partição de propriedade do usuário em um agente. O valor 1 indica a presença de partições no agente. | 

\$1 As métricas de atraso do consumidor exigem nomes de grupos de consumidores somente em ASCII e têm requisitos de emissão específicos. Para obter mais informações, consulte [Monitorar atrasos do consumidor](consumer-lag.md).

## Monitoramento de nível `PER_BROKER` para agentes Express
<a name="express-per-broker-metrics"></a>

Ao definir o nível de monitoramento como `PER_BROKER`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas de nível `DEFAULT`. Você paga pelas métricas de acordo com a tabela a seguir, enquanto as métricas de nível `DEFAULT` continuam gratuitas. As métricas nesta tabela têm as seguintes dimensões: nome do cluster, ID do agente.


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| ConnectionCloseRate | Depois que o cluster passa para o estado ACTIVE. | O número de conexões fechadas por segundo por receptor. Esse número é agregado por receptor e filtrado para os receptores do cliente. | 
| ConnectionCreationRate | Depois que o cluster passa para o estado ACTIVE. | O número de novas conexões estabelecidas por segundo por receptor. Esse número é agregado por receptor e filtrado para os receptores do cliente. | 
| FetchConsumerLocalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor é processada no líder. | 
| FetchConsumerRequestQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor aguarda na fila de solicitações. | 
| FetchConsumerResponseQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do consumidor aguarda na fila de resposta. | 
| FetchConsumerResponseSendTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio, em milissegundos, para que o consumidor envie uma resposta. | 
| FetchConsumerTotalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo total médio em milissegundos que os consumidores gastam obtendo dados do agente. | 
| FetchFollowerLocalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação do seguidor é processada no líder. | 
| FetchFollowerRequestQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação de seguidor aguarda na fila de solicitações. | 
| FetchFollowerResponseQueueTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos que a solicitação de seguidor aguarda na fila de resposta. | 
| FetchFollowerResponseSendTimeMsMean | Depois de haver um produtor/consumidor. | O tempo médio em milissegundos para o seguidor enviar uma resposta. | 
| FetchFollowerTotalTimeMsMean | Depois de haver um produtor/consumidor. | O tempo total médio em milissegundos que os seguidores gastam obtendo e dados do agente. | 
| FetchThrottleByteRate | Após o controle de utilização da largura de banda ser aplicado. | O número de bytes limitados por segundo. | 
| FetchThrottleQueueSize | Após o controle de utilização da largura de banda ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| FetchThrottleTime | Após o controle de utilização da largura de banda ser aplicado. | O tempo médio de controle de utilização de busca em milissegundos. | 
| IAMNumberOfConnectionRequests | Depois que o cluster passa para o estado ACTIVE. | O número de solicitações de autenticação do IAM por segundo. | 
| IAMTooManyConnections | Depois que o cluster passa para o estado ACTIVE. | O número de tentativas de conexões está acima de 100. `0` significa que o número de conexões está dentro do limite. Se `>0`, o limite do controle de utilização está sendo excedido e você precisa reduzir o número de conexões. | 
| NetworkProcessorAvgIdlePercent | Depois que o cluster passa para o estado ACTIVE. | A porcentagem média do tempo em que os processadores de rede estão ociosos. | 
| ProduceLocalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que a solicitação leva para ser processada no líder. | 
| ProduceRequestQueueTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que as mensagens de solicitação gastam na fila. | 
| ProduceResponseQueueTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos que as mensagens de resposta gastam na fila. | 
| ProduceResponseSendTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio em milissegundos gasto no envio de mensagens de resposta. | 
| ProduceThrottleByteRate | Após o controle de utilização da largura de banda ser aplicado. | O número de bytes limitados por segundo. | 
| ProduceThrottleQueueSize | Após o controle de utilização da largura de banda ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| ProduceThrottleTime | Após o controle de utilização da largura de banda ser aplicado. | O tempo médio do controle de utilização da produção em milissegundos. | 
| ProduceTotalTimeMsMean | Depois que o cluster passa para o estado ACTIVE. | O tempo médio de produção em milissegundos. | 
| ReplicationBytesInPerSec | Depois de criar um tópico. | O número de bytes por segundo recebidos dos outros agentes. | 
| ReplicationBytesOutPerSec | Depois de criar um tópico. | O número de bytes por segundo enviados para outros agentes. | 
| RequestExemptFromThrottleTime | Após o controle de utilização da solicitação ser aplicado. | O tempo médio em milissegundos gasto na rede do broker e nos I/O threads para processar solicitações isentas de limitação. | 
| RequestHandlerAvgIdlePercent | Depois que o cluster passa para o estado ACTIVE. | A porcentagem média do tempo em que os threads do manipulador de solicitações estão ociosos. | 
| RequestThrottleQueueSize | Após o controle de utilização da solicitação ser aplicado. | O número de mensagens na fila do controle de utilização. | 
| RequestThrottleTime | Após o controle de utilização da solicitação ser aplicado. | O tempo médio do controle de utilização de solicitações em milissegundos. | 
| TcpConnections | Depois que o cluster passa para o estado ACTIVE. | Mostra o número de segmentos TCP de entrada e saída com o sinalizador SYN definido. | 
| TrafficBytes | Depois que o cluster passa para o estado ACTIVE. | Mostra o tráfego de rede em bytes gerais entre clientes (produtores e consumidores) e agentes. O tráfego entre agentes não é relatado. | 

## Monitoramento de nível `PER_TOPIC_PER_PARTITION` para agentes Express
<a name="express-per-topic-per-partition-metrics"></a>

Ao definir o nível de monitoramento como `PER_TOPIC_PER_PARTITION`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas dos níveis `PER_TOPIC_PER_BROKER`, `PER_BROKER` e `DEFAULT`. Somente as métricas de nível `DEFAULT` são gratuitas. As métricas nesta tabela têm as seguintes dimensões: grupo de consumidores, tópico, partição.


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| EstimatedTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Estimativa de tempo (em segundos) para drenar o atraso no deslocamento da partição. | 
| OffsetLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Atraso do consumidor no nível de partição em número de deslocamentos. | 
| RollingEstimatedTimeLag\$1 | Depois que o grupo de consumidores consome de um tópico. | Estimativa do tempo de rolamento (em segundos) para eliminar o atraso no deslocamento da partição. | 

\$1 As métricas de atraso do consumidor exigem nomes de grupos de consumidores somente em ASCII e têm requisitos de emissão específicos. Para obter mais informações, consulte [Monitorar atrasos do consumidor](consumer-lag.md).

## Monitoramento de nível `PER_TOPIC_PER_BROKER` para agentes Express
<a name="express-per-topic-per-broker-metrics"></a>

Ao definir o nível de monitoramento como `PER_TOPIC_PER_BROKER`, você obtém as métricas descritas na tabela a seguir, além de todas as métricas dos níveis `PER_BROKER` e `DEFAULT`. Somente as métricas de nível `DEFAULT` são gratuitas. As métricas nesta tabela têm as seguintes dimensões: nome do cluster, ID do agente, tópico.

**Importante**  
As métricas na tabela a seguir aparecem somente depois que os valores ficarem diferentes de zero pela primeira vez. Por exemplo, para ver BytesInPerSec, um ou mais produtores devem primeiro enviar dados para o cluster.


| Nome | Quando visível | Description | 
| --- | --- | --- | 
| MessagesInPerSec | Depois de criar um tópico. | O número de mensagens recebidas por segundo. | 

# Monitore um cluster do MSK Provisioned com o Prometheus
<a name="open-monitoring"></a>

É possível monitorar o cluster do MSK Provisioned com o Prometheus, um sistema de código aberto para o monitoramento de dados de métrica de séries temporais. Você pode publicar esses dados no Amazon Managed Service for Prometheus usando o recurso de gravação remota do Prometheus. Também é possível usar ferramentas compatíveis com as métricas ou as ferramentas formatadas do Prometheus que se integram ao Monitoramento aberto do Amazon MSK, como o [Datadog](https://docs.datadoghq.com/integrations/amazon_msk/), [Lenses](https://docs.lenses.io/latest/deployment/configuration/agent/automation/kafka/aws-msk), [New Relic](https://docs.newrelic.com/docs/integrations/amazon-integrations/aws-integrations-list/aws-managed-kafka-msk-integration) e [Sumo logic](https://help.sumologic.com/03Send-Data/Collect-from-Other-Data-Sources/Amazon_MSK_Prometheus_metrics_collection). O monitoramento aberto está disponível gratuitamente, mas cobranças são aplicáveis à transferência de dados entre zonas de disponibilidade.

Para obter informações sobre o Prometheus, consulte a [documentação do Prometheus](https://prometheus.io/docs).

Para saber mais sobre o uso do Prometheus, consulte [Aprimorar insights operacionais para o Amazon MSK usando o Amazon Managed Services for Prometheus e o Amazon Managed Grafana](https://aws.amazon.com/blogs//big-data/enhance-operational-insights-for-amazon-msk-using-amazon-managed-service-for-prometheus-and-amazon-managed-grafana/).

**nota**  
KRaft o modo de metadados e os corretores MSK Express não podem ter o monitoramento aberto e o acesso público habilitados.

# Habilitar o monitoramento aberto no novo cluster do MSK Provisioned
<a name="enable-open-monitoring-at-creation"></a>

Este procedimento descreve como habilitar o monitoramento aberto em um novo cluster MSK usando a Console de gerenciamento da AWS AWS CLI, a ou a API Amazon MSK.

**Usando o Console de gerenciamento da AWS**

1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon MSK em [https://console.aws.amazon.com/msk/casa? region=us-east-1\$1/home/](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/).

1. Na seção **Monitoring (Monitoramento)**, marque a caixa de seleção ao lado de **Enable open monitoring with Prometheus (Habilitar o monitoramento aberto com o Prometheus)**.

1. Forneça as informações obrigatórias em todas as seções da página e revise todas as opções disponíveis.

1. Selecione **Criar cluster**.

**Usando o AWS CLI**
+ Invoque o comando [create-cluster](https://docs.aws.amazon.com/cli/latest/reference/kafka/create-cluster.html) e especifique a opção `open-monitoring`. Habilite o `JmxExporter`, o `NodeExporter` ou ambos. Se você especificar o `open-monitoring`, os dois exportadores não poderão ser desabilitados ao mesmo tempo.

**Usar a API**
+ Invoque a [CreateCluster](https://docs.aws.amazon.com/msk/1.0/apireference/clusters.html#CreateCluster)operação e especifique`OpenMonitoring`. Habilite o `jmxExporter`, o `nodeExporter` ou ambos. Se você especificar o `OpenMonitoring`, os dois exportadores não poderão ser desabilitados ao mesmo tempo.

# Habilitar o monitoramento aberto no cluster existente do MSK Provisioned
<a name="enable-open-monitoring-after-creation"></a>

Para habilitar o monitoramento aberto, verifique se o cluster do MSK Provisioned está no estado `ACTIVE`.

**Usando o Console de gerenciamento da AWS**

1. Faça login no Console de gerenciamento da AWS e abra o console do Amazon MSK em [https://console.aws.amazon.com/msk/casa? region=us-east-1\$1/home/](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/).

1. Escolha o nome do cluster que deseja atualizar. Você será redirecionado para uma página com os detalhes do cluster.

1. Na guia **Propriedades**, role para baixo para encontrar a seção **Monitoramento**.

1. Escolha **Editar**.

1. Marque a caixa de seleção ao lado de **Enable open monitoring with Prometheus (Habilitar o monitoramento aberto com o Prometheus)**.

1. Escolha **Salvar alterações**.

**Usando o AWS CLI**
+ Invoque o comando [update-monitoring](https://docs.aws.amazon.com/cli/latest/reference/kafka/update-monitoring.html) e especifique a opção `open-monitoring`. Habilite o `JmxExporter`, o `NodeExporter` ou ambos. Se você especificar o `open-monitoring`, os dois exportadores não poderão ser desabilitados ao mesmo tempo.

**Usar a API**
+ Invoque a [UpdateMonitoring](https://docs.aws.amazon.com/msk/1.0/apireference/clusters-clusterarn-monitoring.html#UpdateMonitoring)operação e especifique`OpenMonitoring`. Habilite o `jmxExporter`, o `nodeExporter` ou ambos. Se você especificar o `OpenMonitoring`, os dois exportadores não poderão ser desabilitados ao mesmo tempo.

# Configurar um host do Prometheus em uma instância do Amazon EC2
<a name="set-up-prometheus-host"></a>

Este procedimento descreve como configurar um host do Prometheus usando um arquivo prometheus.yml.

1. Baixe o servidor do Prometheus em [https://prometheus.io/download/#prometheus](https://prometheus.io/download/#prometheus) para sua instância do Amazon EC2.

1. Extraia o arquivo obtido por download para um diretório e acesse esse diretório.

1. Crie um arquivo com o seguinte conteúdo e nomeie-o como `prometheus.yml`.

   ```
   # file: prometheus.yml
   # my global config
   global:
     scrape_interval:     60s
   
   # A scrape configuration containing exactly one endpoint to scrape:
   # Here it's Prometheus itself.
   scrape_configs:
     # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
     - job_name: 'prometheus'
       static_configs:
       # 9090 is the prometheus server port
       - targets: ['localhost:9090']
     - job_name: 'broker'
       file_sd_configs:
       - files:
         - 'targets.json'
   ```

1. Use a [ListNodes](https://docs.aws.amazon.com//msk/1.0/apireference/clusters-clusterarn-nodes.html#ListNodes)operação para obter uma lista dos corretores do seu cluster.

1. Crie um arquivo denominado `targets.json` com a seguinte JSON: Substitua *broker\$1dns\$11**broker\$1dns\$12*,, e o resto dos nomes DNS dos corretores pelos nomes DNS que você obteve para seus corretores na etapa anterior. Inclua todos os agentes que você obteve na etapa anterior. O Amazon MSK usa a porta 11001 para o JMX Exporter e a porta 11002 para o Node Exporter.

------
#### [ ZooKeeper mode targets.json ]

   ```
   [
     {
       "labels": {
         "job": "jmx"
       },
       "targets": [
         "broker_dns_1:11001",
         "broker_dns_2:11001",
         .
         .
         .
         "broker_dns_N:11001"
       ]
     },
     {
       "labels": {
         "job": "node"
       },
       "targets": [
         "broker_dns_1:11002",
         "broker_dns_2:11002",
         .
         .
         .
         "broker_dns_N:11002"
       ]
     }
   ]
   ```

------
#### [ KRaft mode targets.json ]

   ```
   [
     {
       "labels": {
         "job": "jmx"
       },
       "targets": [
         "broker_dns_1:11001",
         "broker_dns_2:11001",
         .
         .
         .
         "broker_dns_N:11001",
         "controller_dns_1:11001",
         "controller_dns_2:11001",
         "controller_dns_3:11001"
       ]
     },
     {
       "labels": {
         "job": "node"
       },
       "targets": [
         "broker_dns_1:11002",
         "broker_dns_2:11002",
         .
         .
         .
         "broker_dns_N:11002"
       ]
     }
   ]
   ```

------
**nota**  
Para extrair métricas JMX dos KRaft controladores, adicione nomes DNS do controlador como destinos no arquivo JSON. Por exemplo: `controller_dns_1:11001`, substituindo `controller_dns_1` pelo nome DNS real do controlador.

1. Para iniciar o servidor do Prometheus na instância do Amazon EC2, execute o seguinte comando no diretório no qual extraiu os arquivos do Prometheus e salvou `prometheus.yml` e `targets.json`.

   ```
   ./prometheus
   ```

1. Localize o endereço IP IPv4 público da instância do Amazon EC2 na qual executou o Prometheus na etapa anterior. Esse endereço IP público será necessário na próxima etapa.

1. Para acessar a interface web do Prometheus, abra um navegador que possa acessar sua instância do Amazon EC2 e acesse`Prometheus-Instance-Public-IP:9090`, *Prometheus-Instance-Public-IP* onde está o endereço IP público que você obteve na etapa anterior.

# Usar métricas do Prometheus
<a name="prometheus-metrics"></a>

Todas as métricas emitidas pelo Apache Kafka para o JMX são acessíveis ao usar o monitoramento aberto com o Prometheus. Para obter informações sobre as métricas do Apache Kafka, consulte [Monitoring (Monitoramento)](https://kafka.apache.org/documentation/#monitoring) na documentação do Apache Kafka. Junto com as métricas do Apache Kafka, as métricas de atraso do consumidor também estão disponíveis na porta 11001 sob o nome JMX. MBean `kafka.consumer.group:type=ConsumerLagMetrics` Você também pode usar o Prometheus Node Exporter para obter métricas de CPU e disco para seus agentes na porta 11002.

# Armazenar as métricas do Prometheus no Amazon Managed Service for Prometheus
<a name="managed-service-prometheus"></a>

O Amazon Managed Service for Prometheus é um serviço de monitoramento e emissão de alertas compatível com o Prometheus que você pode usar para monitorar os clusters do Amazon MSK. É um serviço totalmente gerenciado que dimensiona automaticamente a ingestão, o armazenamento, a consulta e o alerta de métricas. Ele também se integra aos serviços de AWS segurança para oferecer acesso rápido e seguro aos seus dados. É possível usar a linguagem de consulta PromQL de código aberto para consultar suas métricas e emitir alertas sobre elas.

Para obter mais informações, consulte [Conceitos básicos do Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/AMP-getting-started.html).

# Monitorar atrasos do consumidor
<a name="consumer-lag"></a>

O monitoramento do atraso do consumidor permite identificar consumidores lentos ou presos que não estão acompanhando os dados mais recentes disponíveis em um tópico. Quando necessário, você poderá adotar medidas corretivas, como escalar ou reinicializar esses consumidores. Para monitorar o atraso do consumidor, você pode usar a Amazon CloudWatch ou abrir o monitoramento com o Prometheus.

As métricas de atraso do consumidor quantificam a diferença entre os dados mais recentes gravados em seus tópicos e os dados lidos por suas aplicações. O Amazon MSK fornece as seguintes métricas de atraso do consumidor, que você pode obter por meio da Amazon CloudWatch ou por meio do monitoramento aberto com o Prometheus:,,, e. `EstimatedMaxTimeLag` `EstimatedTimeLag` `MaxOffsetLag` `OffsetLag` `SumOffsetLag` Para obter informações sobre essas métricas, consulte [Métricas do Amazon MSK para monitorar corretores padrão com CloudWatch](metrics-details.md).

O Amazon MSK é compatível com métricas de atraso do consumidor para clusters com o Apache Kafka 2.2.1 ou versões posteriores. Considere os seguintes pontos ao trabalhar com o Kafka e CloudWatch as métricas:
+ As métricas de atrasos do consumidor são emitidas somente para grupos de consumidores nos estados ESTÁVEL e VAZIO. Um grupo de consumidores fica ESTÁVEL após a conclusão com êxito do rebalanceamento, garantindo que as partições sejam distribuídas uniformemente entre os consumidores.
+ As métricas de atraso do consumidor ficam ausentes nos seguintes cenários:
  + Se o grupo de consumidores estiver instável.
  + O nome do grupo de consumidores contém dois pontos (:).
  + Você não definiu a compensação do consumidor para o grupo de consumidores.
+ Os nomes dos grupos de consumidores são usados como dimensões para as métricas de atraso do consumidor em CloudWatch. [Enquanto o Kafka suporta caracteres UTF-8 em nomes de grupos de consumidores, CloudWatch suporta somente caracteres ASCII para valores de dimensão.](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_Dimension.html) Se você usar caracteres não ASCII em nomes de grupos de consumidores, CloudWatch descarta as métricas de atraso do consumidor. Para garantir que suas métricas de atraso do consumidor sejam capturadas corretamente CloudWatch, você deve usar somente caracteres ASCII nos nomes dos grupos de consumidores.

# Usar alertas de capacidade de armazenamento do Amazon MSK
<a name="cluster-alerts"></a>

Nos clusters provisionados pelo Amazon MSK, você escolhe a capacidade de armazenamento principal do cluster. O esgotamento da capacidade de armazenamento de um agente no cluster provisionado pode afetar a capacidade do cluster de produzir e consumir dados, resultando em um tempo de inatividade dispendioso. O Amazon MSK oferece CloudWatch métricas para ajudar você a monitorar a capacidade de armazenamento do seu cluster. No entanto, para facilitar a detecção e a resolução de problemas de capacidade de armazenamento, o Amazon MSK envia automaticamente alertas dinâmicos de capacidade de armazenamento do cluster. Os alertas de capacidade de armazenamento incluem recomendações para etapas de curto e longo prazo para o gerenciamento da capacidade de armazenamento do cluster. No [console do Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), você pode usar links rápidos nos alertas para executar imediatamente as ações recomendadas.

Há dois tipos de alertas de capacidade de armazenamento do MSK: proativos e corretivos.
+ Alertas proativos (“Ação necessária”) de capacidade de armazenamento avisam você sobre possíveis problemas de armazenamento no cluster. Quando um agente em um cluster do MSK usar mais de 60% ou 80% da capacidade de armazenamento em disco, você receberá alertas proativos para o agente afetado. 
+ Os alertas de capacidade de armazenamento corretivos (“Ação crítica necessária”) exigem que você tome medidas corretivas para corrigir um problema crítico no cluster quando um dos agentes do cluster do MSK fica sem capacidade de armazenamento em disco.

O Amazon MSK envia automaticamente esses alertas para o [console do Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/), [AWS Health Dashboard](https://aws.amazon.com/premiumsupport/technology/aws-health/) EventBridge, [Amazon](https://aws.amazon.com/pm/eventbridge/) e contatos de e-mail da sua AWS conta. Você também pode [configurar EventBridge a Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-api-destination-partners.html) para entregar esses alertas ao Slack ou a ferramentas como New Relic e Datadog. 

Os alertas de capacidade de armazenamento são habilitados por padrão para todos os clusters provisionados pelo MSK e não podem ser desativados. Esse recurso é compatível em todas as regiões em que o MSK está disponível.

## Monitorar alertas de capacidade de armazenamento
<a name="cluster-alerts-monitoring"></a>

Você pode verificar os alertas de capacidade de armazenamento de várias maneiras:
+ Vá para o [console do Amazon MSK](https://console.aws.amazon.com/msk/home?region=us-east-1#/home/). Os alertas de capacidade de armazenamento são exibidos no painel de alertas do cluster por 90 dias. Os alertas contêm recomendações e ações de link com um único clique para resolver problemas de capacidade de armazenamento em disco.
+ Use [ListClustersListClusters](https://docs.aws.amazon.com/msk/1.0/apireference/clusters.html#ListClusters)[V2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters.html#ListClustersV2) ou [DescribeClusterV2](https://docs.aws.amazon.com/MSK/2.0/APIReference/v2-clusters-clusterarn.html#DescribeClusterV2) APIs para visualizar `CustomerActionStatus` todos os alertas de um cluster. [DescribeCluster](https://docs.aws.amazon.com/msk/1.0/apireference/clusters-clusterarn.html#DescribeCluster)
+ Acesse o [AWS Health Dashboard](https://aws.amazon.com/premiumsupport/technology/aws-health/) para ver os alertas do MSK e de outros serviços da AWS .
+ Configure a [AWS Health API](https://docs.aws.amazon.com/health/latest/ug/health-api.html) e EventBridge a [Amazon](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-api-destination-partners.html) para encaminhar notificações de alerta para plataformas de terceiros NewRelic, como Datadog e Slack.