Métricas do ambiente Apache Airflow v2 no CloudWatch
O Apache Airflow v2 já está configurado para coletar e enviar métricas StatsD
Sumário
Termos
- Namespace
-
O Namespace é um contêiner para as métricas do CloudWatch em um serviço AWS. Para o Amazon MWAA, o namespace é AmazonMWAA.
- Métricas do CloudWatch
-
Uma métrica do CloudWatch representa um conjunto de pontos de dados ordenados ao longo do tempo que são especificados no CloudWatch.
- Métricas do Apache Airflow
-
As métricas
específicas do Apache Airflow. - Dimensão
-
Uma dimensão é um par de nome/valor que faz parte da identidade de uma métrica.
- Unidade
-
Uma estatística tem uma unidade de medida. Para o Amazon MWAA, as unidades incluem Contagem, Segundos e Milissegundos. Para o Amazon MWAA, as unidades são definidas com base nas unidades nas métricas originais do Airflow.
Dimensões
Esta seção descreve o agrupamento de Dimensões do CloudWatch para métricas do Apache Airflow no CloudWatch.
Dimensão | Descrição |
---|---|
DAG |
Indica um nome específico de DAG do Apache Airflow. |
Nome do arquivo DAG |
Indica um nome de arquivo específico de DAG do Apache Airflow. |
Função |
Essa dimensão é usada para melhorar o agrupamento de métricas no CloudWatch. |
Trabalho |
Indica um trabalho do Apache Airflow executado pelo Agendador. Sempre tem o valor de Trabalho. |
Operador |
Indica um operador específico do Apache Airflow. |
Grupo |
Indica um grupo de operadores específico do Apache Airflow. |
Tarefa |
Indica uma tarefa específica do Apache Airflow. |
HostName |
Indica o nome do host de um processo específico do Apache Airflow em execução. |
Como acessar as métricas no console do CloudWatch
Esta seção descreve como acessar métricas de desempenho no CloudWatch para um DAG específico.
Para visualizar as métricas de desempenho de uma dimensão
-
Abra a página de Métricas
no console do CloudWatch. -
Use o seletor de regiões para selecionar uma região da AWS.
-
Escolha o namespace AmazonMWAA.
-
Na guia Todas as métricas, selecione uma dimensão. Por exemplo, DAG, Ambiente.
-
Escolha uma métrica do CloudWatch para uma dimensão. Por exemplo, TaskInstanceSuccesses ou TaskInstanceDuration. Escolha Representar graficamente todos os resultados da pesquisa.
-
Escolha a guia Métricas representadas graficamente para visualizar estatísticas de desempenho das métricas do Apache Airflow, como DAG, Ambiente, Tarefa.
Métricas do Apache Airflow disponíveis no CloudWatch
Esta seção descreve as métricas e dimensões do Apache Airflow enviadas ao CloudWatch.
Contadores do Apache Airflow
As métricas do Apache Airflow nesta seção contêm dados sobre os Contadores do Apache Airflow
métrica do cloudwatch | Métrica do Apache Airflow | Unidade | Dimensão |
---|---|---|---|
SLAMissed notaDisponível para Apache Airflow v2.4.3 e superior. |
sla_missed |
Contagem |
Função, Agendador |
FailedSLACallback notaDisponível para Apache Airflow v2.4.3 e superior. |
sla_callback_notification_failure |
Contagem |
Função, Agendador |
Atualizações notaDisponível para Apache Airflow v2.6.3 e superior. |
dataset.updates |
Contagem |
Função, Agendador |
Orphaned notaDisponível para Apache Airflow v2.6.3 e superior. |
dataset.orphaned |
Contagem |
Função, Agendador |
FailedCeleryTaskExecution notaDisponível para Apache Airflow v2.4.3 e superior. |
celery.execute_command.failure |
Contagem |
Função, Celery |
FilePathQueueUpdateCount notaDisponível para Apache Airflow v2.6.3 e superior. |
dag_processing.file_path_queue_update_count |
Contagem |
Função, Agendador |
CriticalSectionBusy |
scheduler.critical_section_busy |
Contagem |
Função, Agendador |
DagBagSize |
dagbag_size |
Contagem |
Função, Processamento de DAG |
DagCallbackExceptions |
dag.callback_exceptions |
Contagem |
DAG, Todos |
FailedSLAEmailAttempts |
sla_email_notification_failure |
Contagem |
Função, Agendador |
TaskInstanceFinished |
ti.finish.{dag_id}.{task_id}.{state} |
Contagem |
DAG, {dag_id} Tarefa, {task_id} Estado, {state} |
JobEnd |
{job_name}_end |
Contagem |
Trabalho, {job_name} |
JobHeartbeatFailure |
{job_name}_heartbeat_failure |
Contagem |
Trabalho, {job_name} |
JobStart |
{job_name}_start |
Contagem |
Trabalho, {job_name} |
ManagerStalls |
dag_processing.manager_stalls |
Contagem |
Função, Processamento de DAG |
OperatorFailures |
operator_failures_{operator_name} |
Contagem |
Operador, {operator_name} |
OperatorSuccesses |
operator_successes_{operator_name} |
Contagem |
Operador, {operator_name} |
OtherCallbackCount notaDisponível no Apache Airflow v2.6.3 e superior. |
dag_processing.other_callback_count |
Contagem |
Função, Agendador |
Processos |
dag_processing.processes |
Contagem |
Função, Processamento de DAG |
SchedulerHeartbeat |
scheduler_heartbeat |
Contagem |
Função, Agendador |
StartedTaskInstances |
ti.start.{dag_id}.{task_id} |
Contagem |
DAG, Todos Tarefa, Todos |
SlaCallbackCount |
dag_processing.sla_callback_count notaDisponível para Apache Airflow v2.6.3 e superior. |
Contagem |
Função, Agendador |
TasksKilledExternally |
scheduler.tasks.killed_externally |
Contagem |
Função, Agendador |
TaskTimeoutError |
celery.task_timeout_error |
Contagem |
Função, Celery |
TaskInstanceCreatedUsingOperator |
task_instance_created-{operator_name} |
Contagem |
Operador, {operator_name} |
TaskInstancePreviouslySucceeded |
previously_succeeded |
Contagem |
DAG, Todos Tarefa, Todos |
TaskInstanceFailures |
ti_failures |
Contagem |
DAG, Todos Tarefa, Todos |
TaskInstanceSuccesses |
ti_successes |
Contagem |
DAG, Todos Tarefa, Todos |
TaskRemovedFromDAG |
task_removed_from_dag.{dag_id} |
Contagem |
DAG, {dag_id} |
TaskRestoredToDAG |
task_restored_to_dag.{dag_id} |
Contagem |
DAG, {dag_id} |
TriggersSucceeded notaDisponível para Apache Airflow v2.7.2 e superior. |
triggers.succeeded |
Contagem |
Função, Trigger |
TriggersFailed notaDisponível para Apache Airflow v2.7.2 e superior. |
triggers.failed |
Contagem |
Função, Trigger |
TriggersBlockedMainThread notaDisponível para Apache Airflow v2.7.2 e superior. |
triggers.blocked_main_thread |
Contagem |
Função, Trigger |
TriggerHeartbeat notaDisponível para Apache Airflow v2.8.1 e superior. |
triggerer_heartbeat |
Contagem |
Função, acionador |
TaskInstanceCreatedUsingOperator |
airflow.task_instance_created_ notaDisponível para Apache Airflow v2.7.2 e superior. |
Contagem |
Operador, |
ZombiesKilled |
zombies_killed |
Contagem |
DAG, Todos Tarefa, Todos |
Medidores do Apache Airflow
As métricas do Apache Airflow nesta seção contêm dados sobre os Medidores do Apache Airflow
métrica do cloudwatch | Métrica do Apache Airflow | Unidade | Dimensão |
---|---|---|---|
DAGFileRefreshError |
dag_file_refresh_error |
Contagem |
Função, Processamento de DAG |
ImportErrors |
dag_processing.import_errors |
Contagem |
Função, Processamento de DAG |
ExceptionFailures |
smart_sensor_operator.exception_failures |
Contagem |
Função, Operador de sensor inteligente |
ExecutedTasks |
smart_sensor_operator.executed_tasks |
Contagem |
Função, Operador de sensor inteligente |
InfraFailures |
smart_sensor_operator.infra_failures |
Contagem |
Função, Operador de sensor inteligente |
LoadedTasks |
smart_sensor_operator.loaded_tasks |
Contagem |
Função, Operador de sensor inteligente |
TotalParseTime |
dag_processing.total_parse_time |
Segundos |
Função, Processamento de DAG |
TriggeredDagRuns notaDisponível no Apache Airflow v2.6.3 e superior. |
dataset.triggered_dagruns |
Contagem |
Função, Agendador |
TriggersRunning notaDisponível no Apache Airflow v2.7.2 e superior. |
triggers.running. |
Contagem |
Função, Trigger HostName, |
PoolDeferredSlots notaDisponível no Apache Airflow v2.7.2 e superior. |
pool.deferred_slots. |
Contagem |
Pool, {pool_name} |
DAGFileProcessingLastRunSecondsAgo |
dag_processing.last_run.seconds_ago.{dag_filename} |
Segundos |
Nome do arquivo DAG, {dag_filename} |
OpenSlots |
executor.open_slots |
Contagem |
Função, Executor |
OrphanedTasksAdopted |
scheduler.orphaned_tasks.adopted |
Contagem |
Função, Agendador |
OrphanedTasksCleared |
scheduler.orphaned_tasks.cleared |
Contagem |
Função, Agendador |
PokedExceptions |
smart_sensor_operator.poked_exception |
Contagem |
Função, Operador de sensor inteligente |
PokedSuccess |
smart_sensor_operator.poked_success |
Contagem |
Função, Operador de sensor inteligente |
PokedTasks |
smart_sensor_operator.poked_tasks |
Contagem |
Função, Operador de sensor inteligente |
PoolFailures |
pool.open_slots.{pool_name} |
Contagem |
Pool, {pool_name} |
PoolStarvingTasks |
pool.starving_tasks.{pool_name} |
Contagem |
Pool, {pool_name} |
PoolOpenSlots |
pool.open_slots.{pool_name} |
Contagem |
Pool, {pool_name} |
PoolQueuedSlots |
pool.queued_slots.{pool_name} |
Contagem |
Pool, {pool_name} |
PoolRunningSlots |
pool.running_slots.{pool_name} |
Contagem |
Pool, {pool_name} |
ProcessorTimeouts |
dag_processing.processor_timeouts |
Contagem |
Função, Processamento de DAG |
QueuedTasks |
executor.queued_tasks |
Contagem |
Função, Executor |
RunningTasks |
executor.running_tasks |
Contagem |
Função, Executor |
TasksExecutable |
scheduler.tasks.executable |
Contagem |
Função, Agendador |
TasksPending notaNão se aplica ao Apache Airflow v2.2 e superior. |
scheduler.tasks.pending |
Contagem |
Função, Agendador |
TasksRunning |
scheduler.tasks.running |
Contagem |
Função, Agendador |
TasksStarving |
scheduler.tasks.starving |
Contagem |
Função, Agendador |
TasksWithoutDagRun |
scheduler.tasks.without_dagrun |
Contagem |
Função, Agendador |
DAGFileProcessingLastNumOfDbQueries notaDisponível no Apache Airflow v2.10.1 e superior. |
dag_processing.last_num_of_db_queries.{dag_filename} | Contagem |
Nome do arquivo DAG, {dag_filename} |
PoolScheduledSlotsnotaDisponível no Apache Airflow v2.10.1 e superior. |
pool.scheduled_slots.{pool_name} | Contagem |
Pool, {pool_name} |
TaskCpuUsagenotaDisponível no Apache Airflow v2.10.1 e superior. |
cpu.usage.{dag_id}.{task_id} | Percentual |
DAG, {dag_id} Tarefa, {task_id} |
TaskMemoryUsagenotaDisponível no Apache Airflow v2.10.1 e superior. |
mem.usage.{dag_id}.{task_id} | Percentual |
DAG, {dag_id} Tarefa, {task_id} |
Temporizadores do Apache Airflow
As métricas do Apache Airflow nesta seção contêm dados sobre os temporizadores do Apache Airflow
métrica do cloudwatch | Métrica do Apache Airflow | Unidade | Dimensão |
---|---|---|---|
CollectDBDags |
collect_db_dags |
Milissegundos |
Função, Processamento de DAG |
CriticalSectionDuration |
scheduler.critical_section_duration |
Milissegundos |
Função, Agendador |
Duração da consulta da seção crítica notaDisponível para Apache Airflow v2.5.1 e superior. |
scheduler.critical_section_query_duration |
Milissegundos |
Função, Agendador |
DAGDependencyCheck |
dagrun.dependency-check.{dag_id} |
Milissegundos |
DAG, {dag_id} |
DAGDurationFailed |
dagrun.duration.failed.{dag_id} |
Milissegundos |
DAG, {dag_id} |
DAGDurationSuccess |
dagrun.duration.success.{dag_id} |
Milissegundos |
DAG, {dag_id} |
DAGFileProcessingLastDuration |
dag_processing.last_duration.{dag_filename} |
Segundos |
Nome do arquivo DAG, {dag_filename} |
DAGScheduleDelay |
dagrun.schedule_delay.{dag_id} |
Milissegundos |
DAG, {dag_id} |
FirstTaskSchedulingDelay |
dagrun.{dag_id}.first_task_scheduling_delay |
Milissegundos |
DAG, {dag_id} |
SchedulerLoopDuration notaDisponível para Apache Airflow v2.5.1 e superior. |
scheduler.scheduler_loop_duration |
Milissegundos |
Função, Agendador |
TaskInstanceDuration |
dag.{dag_id}.{task_id}.duration |
Milissegundos |
DAG, {dag_id} Tarefa, {task_id} |
TaskInstanceQueuedDuration |
dag. notaDisponível para Apache Airflow v2.7.2 e superior. |
Milissegundos |
DAG, {dag_id} Tarefa, {task_id} |
TaskInstanceScheduledDuration notaDisponível para Apache Airflow v2.7.2 e superior. |
dag. |
Milissegundos |
DAG, {dag_id} Tarefa, {task_id} |
Como escolher quais métricas são relatadas
Você pode escolher quais métricas do Apache Airflow são emitidas para o CloudWatch ou bloqueadas pelo Apache Airflow, usando as seguintes opções de configuração do Amazon MWAA:
metrics.metrics_allow_list
: uma lista de prefixos separados por vírgula que você pode usar para selecionar quais métricas são emitidas para o CloudWatch pelo seu ambiente. Use essa opção se quiser que o Apache Airflow não envie todas as métricas disponíveis e, em vez disso, selecione um subconjunto de elementos. Por exemplo,scheduler,executor,dagrun
.metrics.metrics_block_list
: uma lista de prefixos separados por vírgula para filtrar as métricas que começam com os elementos da lista. Por exemplo,scheduler,executor,dagrun
.
Se você configurar metrics.metrics_allow_list
emetrics.metrics_block_list
, o Apache Airflow ignorará metrics.metrics_block_list
. Se você configura metrics.metrics_block_list
, mas não metrics.metrics_allow_list
, o Apache Airflow filtra os elementos que você especifica em metrics.metrics_block_list
.
nota
As opções de configuração metrics.metrics_allow_list
e metrics.metrics_block_list
se aplicam somente ao Apache Airflow v2.6.3 e superior. Para a versão anterior do Apache Airflow, use metrics.statsd_allow_list
e metrics.statsd_block_list
.
Próximas etapas
-
Explore a operação da API Amazon MWAA usada para publicar métricas de integridade do ambiente no PublishMetrics.