Métricas da aplicação Métricas do conector do Kinesis Data Streams Métricas do conector do Amazon MSK Métricas do Apache Zeppelin

Métricas e dimensões no Managed Service for Apache Flink

Quando seu serviço gerenciado para Apache Flink processa uma fonte de dados, o serviço gerenciado para Apache Flink reporta as seguintes métricas e dimensões para a Amazon. CloudWatch

Alterações métricas do Flink 2.2

O Flink 2.2 introduz mudanças métricas que podem afetar seu monitoramento e alarmes. Analise as seguintes alterações antes de fazer o upgrade:

A fullRestarts métrica foi removida. Use numRestarts em vez disso.
As downtime métricas uptime e estão obsoletas e serão removidas em uma versão futura. Migre para as novas métricas específicas do estado.
A bytesRequestedPerFetch métrica do conector 6.0.0 do Kinesis Data Streams foi removida.

Métricas da aplicação

Métrica	Unidade	Description	Nível	Observações sobre o uso
`backPressuredTimeMsPerSecond*`	Milissegundos	O tempo (em milissegundos) em que essa tarefa ou operador é contrapressionado por segundo.	Tarefa, operador, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo.
`busyTimeMsPerSecond*`	Milissegundos	O tempo (em milissegundos) em que essa tarefa ou operador está ocupado (sem inatividade ou contrapressão) por segundo. Pode ser NaN, se o valor não puder ser calculado.	Tarefa, operador, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo.
`cpuUtilization`	Porcentagem	Porcentagem geral de utilização da CPU nos gerenciadores de tarefas. Por exemplo, se houver cinco gerenciadores de tarefas, o Managed Service for Apache Flink publica cinco amostras dessa métrica por intervalo de geração de relatórios.	Aplicação	Você pode usar essa métrica para monitorar a utilização mínima, média e máxima da CPU em seu aplicativo. A `CPUUtilization` métrica considera apenas o uso da CPU do processo TaskManager JVM executado dentro do contêiner.
`containerCPUUtilization`	Porcentagem	Porcentagem geral de utilização da CPU em contêineres do gerenciador de tarefas no cluster de aplicativos do Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto.	Aplicação	É calculado por contêiner como: Tempo total de CPU (em segundos) consumido pelo contêiner 100/ Limite de CPU do contêiner (in CPUs/seconds)* A `CPUUtilization` métrica considera apenas o uso da CPU do processo TaskManager JVM executado dentro do contêiner. Há outros componentes em execução fora da JVM dentro do mesmo contêiner. A métrica `containerCPUUtilization` fornece uma visão mais completa, incluindo todos os processos, em termos de esgotamento da CPU no contêiner e falhas resultantes disso.
`containerMemoryUtilization`	Porcentagem	Porcentagem geral de utilização da memória nos contêineres do gerenciador de tarefas no cluster de aplicativos do Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto.	Aplicação	É calculado por contêiner como: Uso de memória do contêiner (bytes) × 100 / Limite de memória do contêiner de acordo com a especificação de implantação do pod (em bytes) As `ManagedMemoryUtilzations` métricas `HeapMemoryUtilization` e consideram apenas métricas de memória específicas, como uso de memória em pilha da TaskManager JVM ou memória gerenciada (uso de memória fora da JVM para processos nativos, como o RocksDB State Backend). A métrica `containerMemoryUtilization` fornece uma visão mais completa ao incluir a memória do conjunto de trabalho, que é um rastreador melhor do esgotamento total da memória. Após sua exaustão, isso resultará na `Out of Memory Error` cápsula. TaskManager
`containerDiskUtilization`	Porcentagem	Porcentagem geral de utilização do disco nos contêineres do gerenciador de tarefas no cluster de aplicativos do Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto.	Aplicação	É calculado por contêiner como: Uso do disco em bytes × 100 / Limite do disco por contêiner em bytes Para contêineres, ele representa a utilização do sistema de arquivos no qual o volume raiz do contêiner está configurado.
`currentInputWatermark`	Milissegundos	A última marca d'água que esta application/operator/task/thread recebeu	Aplicativo, operador, tarefa, paralelismo	Esse registro só é emitido para dimensões com duas entradas. Esse é o valor mínimo das últimas marcas d’água recebidas.
`currentOutputWatermark`	Milissegundos	A última marca d'água emitida por esta application/operator/task/thread	Aplicativo, operador, tarefa, paralelismo
`downtime`[OBSOLETO]	Milissegundos	Para trabalhos atualmente em uma failing/recovering situação, o tempo decorrido durante essa interrupção.	Aplicação	Essa métrica mede o tempo transcorrido enquanto um trabalho está falhando ou se recuperando. Essa métrica retorna 0 para trabalhos em execução e –1 para trabalhos concluídos. Se essa métrica não for 0 ou –1, isso indica que a tarefa do Apache Flink para o aplicativo falhou na execução. Obsoleto no Flink 2.2. Use `restartingTimecancellingTime`, and/or `failingTime` em vez disso.
`failingTime`	Milissegundos	O tempo (em milissegundos) que o aplicativo passou em um estado de falha. Use essa métrica para monitorar falhas de aplicativos e acionar alertas.	Aplicação, fluxo	Disponível a partir do Flink 2.2. Substitui parte da métrica obsoleta`downtime`.
`heapMemoryUtilization`	Porcentagem	Utilização geral da memória heap em todos os gerenciadores de tarefas. Por exemplo, se houver cinco gerenciadores de tarefas, o Managed Service for Apache Flink publica cinco amostras dessa métrica por intervalo de geração de relatórios.	Aplicação	Você pode usar essa métrica para monitorar a utilização mínima, média e máxima da memória heap em seu aplicativo. A `HeapMemoryUtilization` única conta para métricas de memória específicas, como o uso de memória em pilha da TaskManager JVM.
`idleTimeMsPerSecond*`	Milissegundos	O tempo (em milissegundos) em que essa tarefa ou operador fica inativo (não tem dados para processar) por segundo. O tempo sem atividade exclui o tempo de contrapressão, portanto, se a tarefa for contrapressionada, ela não estará sem atividade.	Tarefa, operador, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo.
`lastCheckpointSize`	Bytes	O tamanho total do último ponto de verificação	Aplicação	Você pode usar essa métrica para determinar a utilização do armazenamento de aplicativos em execução. Se o valor dessa métrica estiver aumentando, isso pode indicar que há um problema com seu aplicativo, como um vazamento de memória ou gargalo.
`lastCheckpointDuration`	Milissegundos	O tempo necessário para concluir o último ponto de verificação	Aplicação	Essa métrica mede o tempo necessário para concluir o ponto de verificação mais recente. Se o valor dessa métrica estiver aumentando, isso pode indicar que há um problema com seu aplicativo, como um vazamento de memória ou gargalo. Em alguns casos, você pode solucionar esse problema desativando o ponto de verificação.
`managedMemoryUsed*`	Bytes	A quantidade de memória gerenciada usada no momento.	Aplicativo, operador, tarefa, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos.
`managedMemoryTotal*`	Bytes	A quantidade total de memória gerenciada.	Aplicativo, operador, tarefa, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos. A métrica `ManagedMemoryUtilzations` só considera métricas de memória específicas, como a memória gerenciada (uso de memória fora da JVM para processos nativos, como o RocksDB State Backend)
`managedMemoryUtilization*`	Porcentagem	Derivado por managedMemoryUsed/managedMemoryTotal	Aplicativo, operador, tarefa, paralelismo	*Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos.
`numberOfFailedCheckpoints`	Contagem	O número de vezes que o ponto de verificação falhou.	Aplicação	Você pode usar essa métrica para monitorar a integridade e o progresso do aplicativo. Os pontos de verificação podem falhar devido a problemas do aplicativo, como problemas de throughput ou permissões.
`numRecordsIn*`	Contagem	O número total de registros que esse aplicativo, operador ou tarefa recebeu.	Aplicativo, operador, tarefa, paralelismo	*Para aplicar a estatística SUM por um período de tempo ()second/minute: Selecione a métrica no nível correto. Se você estiver monitorando a métrica de um operador, precisará selecionar as métricas correspondentes do operador. Como o Managed Service para Apache Flink tira 4 instantâneos métricos por minuto, a seguinte matemática métrica deve ser usada: m1/4 onde m1 é a estatística SUM em um período () second/minute O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica recebeu.
`numRecordsInPerSecond*`	Count/Second	O número total de registros que esse aplicativo, operador ou tarefa recebeu por segundo.	Aplicativo, operador, tarefa, paralelismo	*Para aplicar a estatística SUM por um período de tempo ()second/minute: Selecione a métrica no nível correto. Se você estiver monitorando a métrica de um operador, precisará selecionar as métricas correspondentes do operador. Como o Managed Service para Apache Flink tira 4 instantâneos métricos por minuto, a seguinte matemática métrica deve ser usada: m1/4 onde m1 é a estatística SUM em um período () second/minute O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica recebeu por segundo.
`numRecordsOut*`	Contagem	O número total de registros que esse aplicativo, operador ou tarefa emitiu.	Aplicativo, operador, tarefa, paralelismo	*Para aplicar a estatística SUM por um período de tempo ()second/minute: Selecione a métrica no nível correto. Se você estiver monitorando a métrica de um operador, precisará selecionar as métricas correspondentes do operador. Como o Managed Service para Apache Flink tira 4 instantâneos métricos por minuto, a seguinte matemática métrica deve ser usada: m1/4 onde m1 é a estatística SUM em um período () second/minute O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica emitiu.
`numLateRecordsDropped*`	Contagem	Aplicativo, operador, tarefa, paralelismo		*Para aplicar a estatística SUM por um período de tempo ()second/minute: Selecione a métrica no nível correto. Se você estiver monitorando a métrica de um operador, precisará selecionar as métricas correspondentes do operador. Como o Managed Service para Apache Flink tira 4 instantâneos métricos por minuto, a seguinte matemática métrica deve ser usada: m1/4 onde m1 é a estatística SUM em um período () second/minute O número de registros que esse operador ou tarefa reduziu devido ao atraso na chegada.
`numRecordsOutPerSecond*`	Count/Second	O número total de registros que esse aplicativo, operador ou tarefa emitiu por segundo.	Aplicativo, operador, tarefa, paralelismo	*Para aplicar a estatística SUM por um período de tempo ()second/minute: Selecione a métrica no nível correto. Se você estiver monitorando a métrica de um operador, precisará selecionar as métricas correspondentes do operador. Como o Managed Service para Apache Flink tira 4 instantâneos métricos por minuto, a seguinte matemática métrica deve ser usada: m1/4 onde m1 é a estatística SUM em um período () second/minute O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica emitiu por segundo.
`oldGenerationGCCount`	Contagem	O número total de operações antigas de coleta de resíduos que ocorreram em todos os gerenciadores de tarefas.	Aplicação
`oldGenerationGCTime`	Milissegundos	O tempo total gasto executando operações antigas de coleta de resíduos.	Aplicação	Você pode usar essa métrica para monitorar a soma, a média e o tempo máximo de coleta de resíduos.
`threadsCount`	Contagem	O número total de threads ativos usados pelo aplicativo.	Aplicação	Essa métrica mede o número de segmentos usados pelo código do aplicativo. Isso não é o mesmo que paralelismo de aplicativos.
`cancellingTime`	Milissegundos	O tempo (em milissegundos) que o aplicativo passou em um estado de cancelamento. Use essa métrica para monitorar as operações de cancelamento de aplicativos.	Aplicação, fluxo	Disponível a partir do Flink 2.2. Substitui parte da métrica obsoleta`downtime`.
`restartingTime`	Milissegundos	O tempo (em milissegundos) que o aplicativo passou em um estado de reinicialização. Use essa métrica para monitorar o comportamento de reinicialização do aplicativo.	Aplicação, fluxo	Disponível a partir do Flink 2.2. Substitui parte da métrica obsoleta`downtime`.
`runningTime`	Milissegundos	O tempo (em milissegundos) em que o aplicativo está sendo executado sem interrupção. Substitui a métrica obsoleta`uptime`.	Aplicação, fluxo	Disponível a partir do Flink 2.2. Use como um substituto direto para a métrica obsoleta`uptime`.
`uptime`[OBSOLETO]	Milissegundos	O tempo no qual o trabalho foi executado sem interrupções.	Aplicação	Você pode usar essa métrica para determinar se um trabalho está sendo executado com êxito. Essa métrica retorna –1 para trabalhos concluídos. Obsoleto no Flink 2.2. Use `runningTime` em vez disso.
`jobmanagerFileDescriptorsMax`	Contagem	O número máximo de descritores de arquivo disponíveis para o. JobManager	Aplicativo, fluxo, host	Use essa métrica para monitorar a capacidade do descritor de arquivo.
`jobmanagerFileDescriptorsOpen`	Contagem	O número atual de descritores de arquivo abertos para o. JobManager	Aplicativo, fluxo, host	Use essa métrica para monitorar o uso do descritor de arquivo e detectar a possível exaustão de recursos.
`taskmanagerFileDescriptorsMax`	Contagem	O número máximo de descritores de arquivo disponíveis para cada um TaskManager.	Aplicativo, fluxo, host, tm_id	Use essa métrica para monitorar a capacidade do descritor de arquivo.
`taskmanagerFileDescriptorsOpen`	Contagem	O número atual de descritores de arquivo abertos para cada um TaskManager.	Aplicativo, fluxo, host, tm_id	Use essa métrica para monitorar o uso do descritor de arquivo e detectar a possível exaustão de recursos.
`KPUs*`	Contagem	O número total de KPUs usados pelo aplicativo.	Aplicação	*Esta métrica recebe uma amostra por período de cobrança (uma hora). Para visualizar o número de KPUs ao longo do tempo, use MAX ou AVG por um intervalo de pelo menos uma (1) hora. A contagem de KPU inclui a KPU `orchestration`. Para obter mais informações, consulte Preço do Managed Service for Apache Flink.

Guia de migração métrica do Flink 2.2

Migração do FullRestarts: a fullRestarts métrica foi removida no Flink 2.2. Em vez disso, use a numRestarts métrica. A numRestarts métrica fornece funcionalidade equivalente e pode ser usada como uma substituição direta em CloudWatch alarmes sem exigir ajustes de limite.

Migração do tempo de atividade: a uptime métrica foi descontinuada no Flink 2.2 e será removida em uma versão futura. Em vez disso, use a runningTime métrica. A runningTime métrica fornece funcionalidade equivalente e pode ser usada como uma substituição direta em CloudWatch alarmes sem exigir ajustes de limite.

Migração do tempo de inatividade: a downtime métrica foi descontinuada no Flink 2.2 e será removida em uma versão futura. Dependendo do que você deseja monitorar, use uma ou mais das seguintes métricas:

restartingTime: Monitore o tempo gasto na reinicialização do aplicativo
cancellingTime: Monitore o tempo gasto no cancelamento da inscrição
failingTime: Monitore o tempo gasto em um estado de falha

Métricas do conector do Kinesis Data Streams

AWS emite todos os registros do Kinesis Data Streams, além dos seguintes:

Métrica	Unidade	Description	Nível	Observações sobre o uso
`millisbehindLatest`	Milissegundos	O número de milissegundos em que o consumidor está atrás do início do fluxo de dados, indicando o quão atrasado o consumidor está em relação ao horário atual.	Aplicação (para Stream), Paralelismo (para) ShardId	Um valor zero indica que o processamento de registros foi alcançado e não há nenhum registro novo para processar no momento. A métrica de um fragmento específico pode ser especificada pelo nome do fluxo e pelo ID do fragmento. Um valor de –1 indica que o serviço ainda não relatou um valor para a métrica.

nota

A bytesRequestedPerFetch métrica foi removida na versão 6.0.0 do AWS conector Flink (a única versão do conector compatível com o Flink 2.2). A única métrica do conector do Kinesis Data Streams disponível no Flink 2.2 é. millisBehindLatest

Métricas do conector do Amazon MSK

AWS emite todos os registros do Amazon MSK, além dos seguintes:

Métrica	Unidade	Description	Nível	Observações sobre o uso
`currentoffsets`	N/A	O deslocamento de leitura atual do consumidor, para cada partição. A métrica de uma partição específica pode ser especificada pelo nome do tópico e pela ID da partição.	Aplicação (para tópico), paralelismo (para) PartitionId
`commitsFailed`	N/A	O número total de falhas de confirmação de deslocamentos para o Kafka, se o deslocamento e o ponto de verificação estiverem habilitados.	Aplicativo, operador, tarefa, paralelismo	Enviar os deslocamentos de volta ao Kafka é apenas um meio de expor o progresso do consumidor, portanto, uma falha de confirmação não afeta a integridade dos deslocamentos de partição do ponto de verificação do Flink.
`commitsSucceeded`	N/A	O número total de confirmações de deslocamentos bem-sucedidas para o Kafka, se a confirmação do deslocamento e o ponto de verificação estiverem habilitados.	Aplicativo, operador, tarefa, paralelismo
`committedoffsets`	N/A	Os últimos deslocamentos confirmados com sucesso para o Kafka, para cada partição. A métrica de uma partição específica pode ser especificada pelo nome do tópico e pela ID da partição.	Aplicação (para tópico), paralelismo (para) PartitionId
`records_lag_max`	Contagem	O atraso máximo em termos de número de registros para qualquer partição nesta janela	Aplicativo, operador, tarefa, paralelismo
`bytes_consumed_rate`	Bytes	O número médio de bytes consumidos por segundo para um tópico	Aplicativo, operador, tarefa, paralelismo

Métricas do Apache Zeppelin

Para notebooks Studio, AWS emite as seguintes métricas no nível do aplicativo:KPUs,cpuUtilization,heapMemoryUtilization, oldGenerationGCTimeoldGenerationGCCount, e. threadCount Além disso, ela emite as métricas mostradas na tabela a seguir, também no nível do aplicativo.

Métrica	Unidade	Description	Nome no Prometheus
`zeppelinCpuUtilization`	Porcentagem	Porcentagem geral de utilização da CPU no servidor Apache Zeppelin.	`process_cpu_usage`
`zeppelinHeapMemoryUtilization`	Porcentagem	Porcentagem geral de utilização da memória heap para o servidor Apache Zeppelin.	`jvm_memory_used_bytes`
`zeppelinThreadCount`	Contagem	O número total de threads ativos usados pelo servidor Apache Zeppelin.	`jvm_threads_live_threads`
`zeppelinWaitingJobs`	Contagem	O número de trabalhos enfileirados do Apache Zeppelin esperando por um thread.	`jetty_threads_jobs`
`zeppelinServerUptime`	Segundos	O tempo total em que o servidor esteve ativo e funcionando.	`process_uptime_seconds`

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Analise registros com o CloudWatch Logs Insights

Exibir CloudWatch métricas