Anteriormente, o Amazon Managed Service for Apache Flink era conhecido como Amazon Kinesis Data Analytics for Apache Flink.
As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Métricas e dimensões no Managed Service para Apache Flink
Quando seu serviço gerenciado para Apache Flink processa uma fonte de dados, o serviço gerenciado para Apache Flink reporta as seguintes métricas e dimensões para a Amazon. CloudWatch
Métricas da aplicação
Métrica | Unidade | Descrição | Nível | Observações sobre o uso |
---|---|---|---|---|
backPressuredTimeMsPerSecond* |
Milissegundos | O tempo (em milissegundos) em que essa tarefa ou operador é contrapressionado por segundo. | Tarefa, operador, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo. |
busyTimeMsPerSecond* |
Milissegundos | O tempo (em milissegundos) em que essa tarefa ou operador está ocupado (sem inatividade ou contrapressão) por segundo. Pode ser NaN, se o valor não puder ser calculado. | Tarefa, operador, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo. |
cpuUtilization |
Porcentagem | Porcentagem geral de CPU utilização nos gerenciadores de tarefas. Por exemplo, se houver cinco gerenciadores de tarefas, o Managed Service for Apache Flink publica cinco amostras dessa métrica por intervalo de geração de relatórios. | Aplicativo | Você pode usar essa métrica para monitorar a CPU utilização mínima, média e máxima em seu aplicativo. A CPUUtilization métrica considera apenas o CPU uso do TaskManager JVM processo em execução dentro do contêiner. |
containerCPUUtilization |
Porcentagem | Porcentagem geral de CPU utilização em contêineres do gerenciador de tarefas no cluster de aplicativos Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto. | Aplicativo | É calculado por contêiner como: CPUTempo total (em segundos) consumido pelo contêiner * 100/ CPU Limite do contêiner (em CPUs /segundos) A |
containerMemoryUtilization |
Porcentagem | Porcentagem geral de utilização da memória nos contêineres do gerenciador de tarefas no cluster de aplicativos do Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto. | Aplicativo | É calculado por contêiner como: Uso de memória do contêiner (bytes) × 100 / Limite de memória do contêiner de acordo com a especificação de implantação do pod (em bytes) As |
containerDiskUtilization |
Porcentagem | Porcentagem geral de utilização do disco nos contêineres do gerenciador de tarefas no cluster de aplicativos do Flink. Por exemplo, se houver cinco gerenciadores de tarefas, correspondentemente, há cinco TaskManager contêineres e o Managed Service for Apache Flink publica 2 x cinco amostras dessa métrica por intervalo de relatório de 1 minuto. | Aplicativo | É calculado por contêiner como: Uso do disco em bytes × 100 / Limite do disco por contêiner em bytes Para contêineres, ele representa a utilização do sistema de arquivos no qual o volume raiz do contêiner está configurado. |
currentInputWatermark |
Milissegundos | A última marca d’água que este aplicativo/operador/tarefa/thread recebeu | Aplicativo, operador, tarefa, paralelismo | Esse registro só é emitido para dimensões com duas entradas. Esse é o valor mínimo das últimas marcas d’água recebidas. |
currentOutputWatermark |
Milissegundos | A última marca d’água que este aplicativo/operador/tarefa/thread emitiu | Aplicativo, operador, tarefa, paralelismo | |
downtime |
Milissegundos | Para trabalhos que, atualmente, estão em situação de falha/recuperação, o tempo acabou durante essa interrupção. | Aplicativo | Essa métrica mede o tempo transcorrido enquanto um trabalho está falhando ou se recuperando. Essa métrica retorna 0 para trabalhos em execução e –1 para trabalhos concluídos. Se essa métrica não for 0 ou –1, isso indica que a tarefa do Apache Flink para o aplicativo falhou na execução. |
fullRestarts |
Contagem | O número total de vezes em que esse trabalho foi totalmente reiniciado desde que foi enviado. Essa métrica não mede reinicializações refinadas. | Aplicativo | Você pode usar essa métrica para avaliar a integridade geral do aplicativo. As reinicializações podem ocorrer durante a manutenção interna do Managed Service for Apache Flink. Reinicializações acima do normal podem indicar um problema com o aplicativo. |
heapMemoryUtilization |
Porcentagem | Utilização geral da memória heap em todos os gerenciadores de tarefas. Por exemplo, se houver cinco gerenciadores de tarefas, o Managed Service for Apache Flink publica cinco amostras dessa métrica por intervalo de geração de relatórios. | Aplicativo | Você pode usar essa métrica para monitorar a utilização mínima, média e máxima da memória heap em seu aplicativo. A HeapMemoryUtilization única conta para métricas de memória específicas, como Heap Memory Usage of TaskManager JVM. |
idleTimeMsPerSecond* |
Milissegundos | O tempo (em milissegundos) em que essa tarefa ou operador fica inativo (não tem dados para processar) por segundo. O tempo sem atividade exclui o tempo de contrapressão, portanto, se a tarefa for contrapressionada, ela não estará sem atividade. | Tarefa, operador, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Essas métricas podem ser úteis para identificar gargalos em um aplicativo. |
lastCheckpointSize |
Bytes | O tamanho total do último ponto de verificação | Aplicativo | Você pode usar essa métrica para determinar a utilização do armazenamento de aplicativos em execução. Se o valor dessa métrica estiver aumentando, isso pode indicar que há um problema com seu aplicativo, como um vazamento de memória ou gargalo. |
lastCheckpointDuration |
Milissegundos | O tempo necessário para concluir o último ponto de verificação | Aplicativo | Essa métrica mede o tempo necessário para concluir o ponto de verificação mais recente. Se o valor dessa métrica estiver aumentando, isso pode indicar que há um problema com seu aplicativo, como um vazamento de memória ou gargalo. Em alguns casos, você pode solucionar esse problema desativando o ponto de verificação. |
managedMemoryUsed* |
Bytes | A quantidade de memória gerenciada usada no momento. | Aplicativo, operador, tarefa, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos. |
managedMemoryTotal* |
Bytes | A quantidade total de memória gerenciada. | Aplicativo, operador, tarefa, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos. A |
managedMemoryUtilization* |
Porcentagem | Derivado por managedMemoryUsed/managedMemoryTotal | Aplicativo, operador, tarefa, paralelismo | *Disponível para aplicativos Managed Service para Apache Flink executando somente a versão 1.13 do Flink. Isso está relacionado à memória gerenciada pelo Flink fora da heap do Java. Ele é usado para o RocksDB State Backend e também está disponível para aplicativos. |
numberOfFailedCheckpoints |
Contagem | O número de vezes que o ponto de verificação falhou. | Aplicativo | Você pode usar essa métrica para monitorar a integridade e o progresso do aplicativo. Os pontos de verificação podem falhar devido a problemas do aplicativo, como problemas de throughput ou permissões. |
numRecordsIn* |
Contagem | O número total de registros que esse aplicativo, operador ou tarefa recebeu. | Aplicativo, operador, tarefa, paralelismo | *Para aplicar a SUM estatística por um período de tempo (segundo/minuto):
O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica recebeu. |
numRecordsInPerSecond* |
Contagem/segundo | O número total de registros que esse aplicativo, operador ou tarefa recebeu por segundo. | Aplicativo, operador, tarefa, paralelismo | *Para aplicar a SUM estatística por um período de tempo (segundo/minuto):
O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica recebeu por segundo. |
numRecordsOut* |
Contagem | O número total de registros que esse aplicativo, operador ou tarefa emitiu. | Aplicativo, operador, tarefa, paralelismo |
*Para aplicar a SUM estatística por um período de tempo (segundo/minuto):
O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica emitiu. |
numLateRecordsDropped* |
Contagem | Aplicativo, operador, tarefa, paralelismo | *Para aplicar a SUM estatística por um período de tempo (segundo/minuto):
O número de registros que esse operador ou tarefa reduziu devido ao atraso na chegada. |
|
numRecordsOutPerSecond* |
Contagem/segundo | O número total de registros que esse aplicativo, operador ou tarefa emitiu por segundo. | Aplicativo, operador, tarefa, paralelismo |
*Para aplicar a SUM estatística por um período de tempo (segundo/minuto):
O nível da métrica especifica se essa métrica mede o número total de registros que o aplicativo todo, um operador específico ou uma tarefa específica emitiu por segundo. |
oldGenerationGCCount |
Contagem | O número total de operações antigas de coleta de resíduos que ocorreram em todos os gerenciadores de tarefas. | Aplicativo | |
oldGenerationGCTime |
Milissegundos | O tempo total gasto executando operações antigas de coleta de resíduos. | Aplicativo | Você pode usar essa métrica para monitorar a soma, a média e o tempo máximo de coleta de resíduos. |
threadCount |
Contagem | O número total de threads ativos usados pelo aplicativo. | Aplicativo | Essa métrica mede o número de segmentos usados pelo código do aplicativo. Isso não é o mesmo que paralelismo de aplicativos. |
uptime |
Milissegundos | O tempo no qual o trabalho foi executado sem interrupções. | Aplicativo | Você pode usar essa métrica para determinar se um trabalho está sendo executado com êxito. Essa métrica retorna –1 para trabalhos concluídos. |
KPUs* |
Contagem | O número total de KPUs usados pelo aplicativo. | Aplicativo | *Essa métrica recebe uma amostra por período de cobrança (uma hora). Para visualizar o número de KPUs ao longo do tempo, use MAX ou AVG durante um período de pelo menos uma (1) hora. A KPU contagem inclui |
Métricas do conector Kinesis Data Streams
AWS emite todos os registros do Kinesis Data Streams, além dos seguintes:
Métrica | Unidade | Descrição | Nível | Observações sobre o uso |
---|---|---|---|---|
millisbehindLatest |
Milissegundos | O número de milissegundos em que o consumidor está atrás do início do fluxo de dados, indicando o quão atrasado o consumidor está em relação ao horário atual. | Aplicação (para Stream), Paralelismo (para) ShardId |
|
bytesRequestedPerFetch |
Bytes | Os bytes solicitados em uma única chamada para getRecords . |
Aplicação (para Stream), Paralelismo (para) ShardId |
Métricas MSK do conector Amazon
AWS emite todos os registros para a Amazon, MSK além dos seguintes:
Métrica | Unidade | Descrição | Nível | Observações sobre o uso |
---|---|---|---|---|
currentoffsets |
N/D | O deslocamento de leitura atual do consumidor, para cada partição. A métrica de uma partição específica pode ser especificada pelo nome do tópico e pela ID da partição. | Aplicação (para tópico), paralelismo (para) PartitionId | |
commitsFailed |
N/D | O número total de falhas de confirmação de deslocamentos para o Kafka, se o deslocamento e o ponto de verificação estiverem habilitados. | Aplicativo, operador, tarefa, paralelismo | Enviar os deslocamentos de volta ao Kafka é apenas um meio de expor o progresso do consumidor, portanto, uma falha de confirmação não afeta a integridade dos deslocamentos de partição do ponto de verificação do Flink. |
commitsSucceeded |
N/D | O número total de confirmações de deslocamentos bem-sucedidas para o Kafka, se a confirmação do deslocamento e o ponto de verificação estiverem habilitados. | Aplicativo, operador, tarefa, paralelismo | |
committedoffsets |
N/D | Os últimos deslocamentos confirmados com sucesso para o Kafka, para cada partição. A métrica de uma partição específica pode ser especificada pelo nome do tópico e pela ID da partição. | Aplicação (para tópico), paralelismo (para) PartitionId | |
records_lag_max |
Contagem | O atraso máximo em termos de número de registros para qualquer partição nesta janela | Aplicativo, operador, tarefa, paralelismo | |
bytes_consumed_rate |
Bytes | O número médio de bytes consumidos por segundo para um tópico | Aplicativo, operador, tarefa, paralelismo |
Métricas do Apache Zeppelin
Para notebooks Studio, AWS emite as seguintes métricas no nível do aplicativo:KPUs
,cpuUtilization
,heapMemoryUtilization
, oldGenerationGCTime
oldGenerationGCCount
, e. threadCount
Além disso, ela emite as métricas mostradas na tabela a seguir, também no nível do aplicativo.
Métrica | Unidade | Descrição | Nome no Prometheus |
---|---|---|---|
zeppelinCpuUtilization |
Porcentagem | Porcentagem geral de CPU utilização no servidor Apache Zeppelin. | process_cpu_usage |
zeppelinHeapMemoryUtilization |
Porcentagem | Porcentagem geral de utilização da memória heap para o servidor Apache Zeppelin. | jvm_memory_used_bytes |
zeppelinThreadCount |
Contagem | O número total de threads ativos usados pelo servidor Apache Zeppelin. | jvm_threads_live_threads |
zeppelinWaitingJobs |
Contagem | O número de trabalhos enfileirados do Apache Zeppelin esperando por um thread. | jetty_threads_jobs |
zeppelinServerUptime |
Segundos | O tempo total em que o servidor esteve ativo e funcionando. | process_uptime_seconds |