Monitorando métricas de OpenSearch cluster com a Amazon CloudWatch - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitorando métricas de OpenSearch cluster com a Amazon CloudWatch

O Amazon OpenSearch Service publica dados de seus domínios na Amazon. CloudWatch CloudWatch permite recuperar estatísticas sobre esses pontos de dados como um conjunto ordenado de dados de séries temporais, conhecido como métricas. OpenSearch O serviço envia a maioria das métricas CloudWatch em intervalos de 60 segundos. Se você usa EBS volumes magnéticos ou de uso geral, as métricas de EBS volume são atualizadas somente a cada cinco minutos. Todas as métricas cumulativas (por exemplo, ThreadpoolWriteRejected e ThreadpoolSearchRejected) estão na memória e perderão o estado. As métricas serão redefinidas durante o descarte do nó, a devolução do nó, a substituição do nó e a implantação azul/verde. Para obter mais informações sobre a Amazon CloudWatch, consulte o Guia CloudWatch do usuário da Amazon.

O console OpenSearch de serviço exibe uma série de gráficos com base nos dados brutos de CloudWatch. Dependendo de suas necessidades, talvez você prefira visualizar os dados do cluster em CloudWatch vez dos gráficos no console. O serviço mantém as métricas arquivadas por duas semanas e depois as descarta. As métricas são fornecidas sem custo adicional, mas CloudWatch ainda cobram pela criação de painéis e alarmes. Para obter mais informações, consulte os CloudWatchpreços da Amazon.

OpenSearch O serviço publica as seguintes métricas para CloudWatch:

Visualizando métricas em CloudWatch

CloudWatch as métricas são agrupadas primeiro pelo namespace do serviço e depois pelas várias combinações de dimensões em cada namespace.

Para visualizar métricas usando o CloudWatch console
  1. Abra o CloudWatch console em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação à esquerda, localize Métricas e escolha Todas as métricas. Selecione o OpenSearchServicenamespace ES/.

  3. Escolha uma dimensão para visualizar as métricas correspondentes. As métricas para nós individuais estão na dimensão ClientId, DomainName, NodeId. As métricas de cluster estão na dimensão Per-Domain, Per-Client Metrics. Algumas métricas de nó são agregadas no nível do cluster e, portanto, incluídas em ambas as dimensões. As métricas de fragmentos estão na dimensão ClientId, DomainName, NodeId, ShardRole.

Para ver uma lista de métricas usando o AWS CLI

Execute o seguinte comando:

aws cloudwatch list-metrics --namespace "AWS/ES"

Interpretando prontuários de saúde em serviço OpenSearch

Para visualizar métricas no OpenSearch Serviço, use as guias Integridade do cluster e Integridade da instância. A guia Integridade da instância usa gráficos de caixa para fornecer at-a-glance visibilidade da integridade de cada OpenSearch nó:

Chart showing search rate and CPU utilization for different instances with varying percentages.
  • Cada caixa colorida mostra a faixa de valores do nó ao longo do período de tempo especificado.

  • As caixas azuis representam valores que são consistentes com outros nós. As caixas vermelhas representam exceções.

  • A linha branca dentro de cada caixa de seleção mostra o valor atual do nó.

  • As "caixas estreitas" em cada lado de cada caixa mostram os valores mínimo e máximo de todos os nós ao longo do período de tempo.

Se você fizer alterações de configuração para seu domínio, a lista de instâncias individuais nas guias Integridade do cluster e Integridade da instância geralmente duplicarão de tamanho por um breve período antes de retornar para o número correto. Para obter uma explicação sobre esse comportamento, consulte Fazendo alterações de configuração no Amazon OpenSearch Service.

Métricas de cluster

O Amazon OpenSearch Service fornece as seguintes métricas para clusters.

Métrica Descrição
ClusterStatus.green

Um valor 1 indica que todos os fragmentos de índice estão alocados a nós no cluster.

Estatística relevante: máximo

ClusterStatus.yellow Um valor 1 indica que os fragmentos principais de todos os índices estão alocados a nós no cluster, mas os fragmentos de réplica de pelo menos um índice não estão. Para obter mais informações, consulte Status de cluster amarelo.

Estatística relevante: máximo

ClusterStatus.red

Um valor 1 indica que os fragmentos principais e de réplica de pelo menos um índice não estão alocados a nós no cluster. Para obter mais informações, consulte Status de cluster vermelho.

Estatística relevante: máximo

Shards.active

O número total de fragmentos ativos primários e de réplica.

Estatística relevante: máximo, soma

Shards.unassigned

O número de fragmentos que não estão alocados a nós no cluster.

Estatística relevante: máximo, soma

Shards.delayedUnassigned

O número de fragmentos cuja alocação de nó foi atrasada pelas configurações de tempo limite.

Estatística relevante: máximo, soma

Shards.activePrimary

O número de fragmentos primários ativos.

Estatística relevante: máximo, soma

Shards.initializing

O número de fragmentos que estão em inicialização.

Estatísticas relevantes: soma

Shards.relocating

O número de fragmentos que estão em relocação.

Estatísticas relevantes: soma

Nodes

O número de nós no cluster OpenSearch de serviços, incluindo nós mestres e UltraWarm nós dedicados. Para obter mais informações, consulte Fazendo alterações de configuração no Amazon OpenSearch Service.

Estatística relevante: máximo

SearchableDocuments

O número total de documentos pesquisáveis em todos os nós de dados no cluster.

Estatísticas relevantes: mínimo, máximo, média

DeletedDocuments

O número total de documentos marcados para exclusão em todos os nós de dados no cluster. Esses documentos não aparecem mais nos resultados da pesquisa, mas OpenSearch apenas removem documentos excluídos do disco durante a mesclagem de segmentos. Essa métrica aumenta após solicitações e diminuições de exclusão após fusões de segmento.

Estatísticas relevantes: mínimo, máximo, média

CPUUtilization

A porcentagem de CPU uso dos nós de dados no cluster. Maximum mostra o nó com o maior CPU uso. Average (Médio) representa todos os nós no cluster. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: máximo, média

FreeStorageSpace

O espaço livre para nós de dados no cluster. Sum mostra o espaço livre total para o cluster, mas é necessário deixar o período em um minuto para obter um valor exato. Minimum e Maximum mostram os nós com o menor e o maior espaço livre, respectivamente. Essa métrica também está disponível para nós individuais. OpenSearch O serviço lança um ClusterBlockException quando essa métrica atinge0. Para se recuperar, você deve excluir índices, adicionar instâncias maiores ou adicionar armazenamento EBS baseado às instâncias existentes. Para saber mais, consulte Falta de espaço de armazenamento disponível.

O console OpenSearch de serviço exibe esse valor em GiB. O CloudWatch console da Amazon o exibe em MiB.

nota

FreeStorageSpacesempre serão menores do que os valores _cat/allocation APIs fornecidos pelo OpenSearch _cluster/stats e. OpenSearch O serviço reserva uma porcentagem do espaço de armazenamento em cada instância para operações internas. Para obter mais informações, consulte Cálculo de requisitos de armazenamento.

Estatísticas relevantes: mínima, máxima, média, soma

ClusterUsedSpace

O total de espaço usado para o cluster. Você deve deixar o período em um minuto para receber um valor preciso.

O console OpenSearch de serviço exibe esse valor em GiB. O CloudWatch console da Amazon o exibe em MiB.

Estatísticas relevantes: mínimo, máximo

ClusterIndexWritesBlocked

Indica se o cluster está aceitando ou bloqueando solicitações de gravação recebidas. Um valor de 0 significa que o cluster está aceitando solicitações. Um valor de 1 significa que ele está bloqueando solicitações.

Alguns fatores comuns são: FreeStorageSpace é muito baixo ou JVMMemoryPressure é muito alto. Para aliviar esse problema, considere adicionar mais espaço em disco ou escalonar o cluster.

Estatística relevante: máximo

JVMMemoryPressure

A porcentagem máxima do heap Java usada para todos os nós de dados no cluster. OpenSearch O serviço usa metade de uma instância RAM para o heap Java, até um tamanho de heap de 32 GiB. Você pode escalar instâncias verticalmente até 64 GiB RAM de, momento em que você pode escalar horizontalmente adicionando instâncias. Consulte CloudWatch Alarmes recomendados para o Amazon Service OpenSearch .

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

OldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a "geração antiga" em todos os nós de dados no cluster. Essa métrica também está disponível a nível de nós.

Estatística relevante: máximo

AutomatedSnapshotFailure

O número de snapshots automatizados com falha para o cluster. Um valor de 1 indica que nenhum snapshot automatizado foi feito para o domínio nas últimas 36 horas.

Estatísticas relevantes: mínimo, máximo

CPUCreditBalance

Os CPU créditos restantes disponíveis para nós de dados no cluster. Um CPU crédito fornece o desempenho de um CPU núcleo completo por um minuto. Para obter mais informações, consulte os CPUcréditos no Amazon EC2 Developer Guide. Essa métrica está disponível somente para os tipos de instância T2

Estatísticas relevantes: mínimo

OpenSearchDashboardsHealthyNodes

Uma verificação de saúde para OpenSearch painéis. Se mínimo, máximo e média forem todos iguais a 1, o Dashboards está se comportando normalmente. Se você tiver 10 nós com máximo de 1, mínimo de 0 e média de 0,7, isso significa que 7 nós (70%) são íntegros e 3 nós (30%) não são íntegros.

Estatísticas relevantes: mínimo, máximo, média

OpensearchDashboardsReportingFailedRequestSysErrCount

O número de solicitações para gerar relatórios de OpenSearch painéis que falharam devido a problemas no servidor ou limitações de recursos.

Estatísticas relevantes: soma

OpensearchDashboardsReportingFailedRequestUserErrCount

O número de solicitações para gerar relatórios de OpenSearch painéis que falharam devido a problemas do cliente.

Estatísticas relevantes: soma

OpensearchDashboardsReportingRequestCount

O número total de solicitações para gerar relatórios de OpenSearch painéis.

Estatísticas relevantes: soma

OpensearchDashboardsReportingSuccessCount

O número de solicitações bem-sucedidas para gerar relatórios de OpenSearch painéis.

Estatísticas relevantes: soma

KMSKeyError

Um valor de 1 indica que a AWS KMS chave usada para criptografar dados em repouso foi desativada. Para restaurar o domínio de operações normais, reabilite a chave. O console exibe essa métrica somente para domínios que criptografam dados em repouso.

Estatísticas relevantes: mínimo, máximo

KMSKeyInaccessible

Um valor de 1 indica que a AWS KMS chave usada para criptografar dados em repouso foi excluída ou revogada em suas concessões ao OpenSearch Serviço. Você não pode recuperar os domínios que estejam nesse estado. Mas, se tiver um snapshot manual, você poderá usá-lo para migrar os dados do domínio para um novo domínio. O console exibe essa métrica somente para domínios que criptografam dados em repouso.

Estatísticas relevantes: mínimo, máximo

InvalidHostHeaderRequests

O número de HTTP solicitações feitas ao OpenSearch cluster que incluíram um cabeçalho de host inválido (ou ausente). As solicitações válidas incluem o nome do host do domínio como valor do cabeçalho do host. OpenSearch O serviço rejeita solicitações inválidas de domínios de acesso público que não tenham uma política de acesso restritiva. Recomendamos aplicar uma política de acesso restritiva a todos os domínios.

Se você ver valores grandes para essa métrica, confirme se seus OpenSearch clientes incluem o nome do host do domínio (e não, por exemplo, seu endereço IP) em suas solicitações.

Estatísticas relevantes: soma

OpenSearchRequests (previously ElasticsearchRequests)

O número de solicitações feitas ao OpenSearch cluster.

Estatísticas relevantes: soma

2xx, 3xx, 4xx, 5xx

O número de solicitações ao domínio que resultaram no código de HTTP resposta fornecido (2 xx, 3 xx, 4 xx, 5 xx).

Estatísticas relevantes: soma

ThroughputThrottle

Indica se os discos estão sob controle de utilização ou não. O controle de utilização ocorre quando o throughput combinado de ReadThroughputMicroBursting e WriteThroughputMicroBursting é maior que o throughput máximo de MaxProvisionedThroughput. MaxProvisionedThroughput é o valor mais baixo do throughput da instância ou do throughput do volume provisionado. Um valor de 1 indica que os discos estão sob controle de utilização. Um valor de 0 indica comportamento normal.

Para obter informações sobre a taxa de transferência de instâncias, consulte Instâncias EBSotimizadas da Amazon. Para obter informações sobre a taxa de transferência de volume, consulte os tipos de EBS volume da Amazon.

Estatísticas relevantes: mínimo, máximo

IopsThrottle

Indica se o número de operações de entrada/saída por segundo (IOPS) no domínio foi reduzido ou não. A limitação ocorre quando o nó IOPS de dados viola o limite máximo permitido do EBS volume ou da EC2 instância do nó de dados.

Para obter informações sobre a instânciaIOPS, consulte Instâncias EBS otimizadas da Amazon. Para obter informações sobre volumeIOPS, consulte os tipos de EBS volume da Amazon.

Estatísticas relevantes: mínimo, máximo

HighSwapUsage

Um valor de 1 indica que a troca devido a falhas de página potencialmente causou picos no uso do disco subjacente durante um período específico.

Estatística relevante: máximo

Métricas de nó principal dedicado

O Amazon OpenSearch Service fornece as seguintes métricas para nós mestres dedicados.

Métrica Descrição
MasterCPUUtilization

A porcentagem máxima de CPU recursos usados pelos nós mestres dedicados. Recomendamos aumentar o tamanho do tipo de instância quando essa métrica atingir 60%.

Estatística relevante: máximo

MasterFreeStorageSpace

Essa métrica não é relevante e pode ser ignorada. O serviço não usa nós principais como nós de dados.

MasterJVMMemoryPressure

A porcentagem máxima do heap Java usada para todos os nós principais dedicados no cluster. Recomendamos a mudança para um tipo de instância maior quando essa métrica atingir 85%.

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

MasterOldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a “geração antiga” por nó principal.

Estatística relevante: máximo

MasterCPUCreditBalance

Os CPU créditos restantes estão disponíveis para nós mestres dedicados no cluster. Um CPU crédito fornece o desempenho de um CPU núcleo completo por um minuto. Para obter mais informações, consulte os CPUcréditos no Amazon EC2 Developer Guide. Essa métrica está disponível somente para os tipos de instância T2

Estatísticas relevantes: mínimo

MasterReachableFromNode

Uma verificação de integridade exceções MasterNotDiscovered. Um valor de 1 indica comportamento normal. Um valor de 0 indica que /_cluster/health/ está falhando.

Falhas significam que o nó principal está inacessível a partir do nó de origem. Geralmente são o resultado de um problema de conectividade de rede ou de AWS dependência.

Estatística relevante: máximo

MasterSysMemoryUtilization

O percentual de memória do nó principal que está em uso.

Estatística relevante: máximo

Métricas do nó Coordenador dedicado

O Amazon OpenSearch Service fornece as seguintes métricas para nós coordenadores dedicados.

Métrica Descrição
CoordinatorCPUUtilization

A porcentagem máxima de CPU recursos usados pelos nós coordenadores dedicados. Recomendamos aumentar o tamanho do tipo de instância quando essa métrica atingir 80%.

Estatística relevante: máximo

CoordinatorJVMMemoryPressure

A porcentagem máxima do heap Java usada para todos os nós coordenadores dedicados no cluster. Recomendamos a mudança para um tipo de instância maior quando essa métrica atingir 85%.

Estatística relevante: máximo

CoordinatorOldGenJVMMemoryPressure

A porcentagem máxima do heap do Java usada para a “geração antiga” por nó principal.

Estatística relevante: máximo

CoordinatorSysMemoryUtilization

A porcentagem de memória do nó coordenador que está em uso.

Estatística relevante: máximo

CoordinatorFreeStorageSpace

Essa métrica indica que o serviço não usa nós coordenadores como nós de dados.

EBSmétricas de volume

O Amazon OpenSearch Service fornece as seguintes métricas para EBS volumes.

Métrica Descrição
ReadLatency

A latência, em segundos, para operações de leitura em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteLatency

A latência, em segundos, para operações de gravação em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadThroughput

A taxa de transferência, em bytes por segundo, para operações de leitura em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadThroughputMicroBursting

A taxa de transferência, em bytes por segundo, para operações de leitura em EBS volumes quando a microintermitência é levada em consideração. Esta métrica também está disponível para nós individuais. A microexplosão ocorre quando um EBS volume aumenta IOPS ou produz por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

WriteThroughput

A taxa de transferência, em bytes por segundo, para operações de gravação em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteThroughputMicroBursting

A taxa de transferência, em bytes por segundo, para operações de gravação em EBS volumes quando o microbursting é levado em consideração. Esta métrica também está disponível para nós individuais. A microexplosão ocorre quando um EBS volume aumenta IOPS ou produz por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

DiskQueueDepth

O número de solicitações de entrada e saída (E/S) pendentes para um EBS volume.

Estatísticas relevantes: mínimo, máximo, média

ReadIOPS

O número de operações de entrada e saída (E/S) por segundo para operações de leitura em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

ReadIOPSMicroBursting

O número de operações de entrada e saída (E/S) por segundo para operações de leitura em EBS volumes quando a microintermitência é levada em consideração. Esta métrica também está disponível para nós individuais. A microexplosão ocorre quando um EBS volume aumenta IOPS ou produz por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

WriteIOPS

O número de operações de entrada e saída (E/S) por segundo para operações de gravação em EBS volumes. Esta métrica também está disponível para nós individuais.

Estatísticas relevantes: mínimo, máximo, média

WriteIOPSMicroBursting

O número de operações de entrada e saída (E/S) por segundo para operações de gravação em EBS volumes quando a microintermitência é levada em consideração. Esta métrica também está disponível para nós individuais. A microexplosão ocorre quando um EBS volume aumenta IOPS ou produz por períodos de tempo significativamente mais curtos (menos de um minuto).

Estatísticas relevantes: mínimo, máximo, média

BurstBalance

A porcentagem de créditos de entrada e saída (E/S) restantes no balde de intermitência para um EBS volume. Um valor de 100 significa que o volume acumulou o número máximo de créditos. Se essa porcentagem cair abaixo de 70%, consulte O saldo de intermitência do EBS está baixo. O saldo intermitente permanece em 0 para domínios com tipos de volume gp3 e domínios com volume gp2 cujo tamanho de volume seja superior a 1000 GiB.

Estatísticas relevantes: mínimo, máximo, média

Métricas de instância

O Amazon OpenSearch Service fornece as seguintes métricas para cada instância em um domínio. OpenSearch O serviço também agrega essas métricas de instância para fornecer informações sobre a integridade geral do cluster. Você pode verificar esse comportamento usando a estatística Contagem de amostras no console. Cada métrica na tabela a seguir tem estatísticas relevantes para o nó e o cluster.

Importante

Versões diferentes do Elasticsearch usam grupos de threads diferentes para processar chamadas para o. _index API As versões 1.5 e 2.3 do Elasticsearch usam o grupo de threads de índice. Elasticsearch 5. x, 6.0 e 6.2 usam o pool de threads em massa. OpenSearch e o Elasticsearch 6.3 e versões posteriores usam o pool de threads de gravação. Atualmente, o console OpenSearch de serviço não inclui um gráfico para o pool de threads em massa.

Use GET _cluster/settings?include_defaults=true para verificar o grupo de threads e os tamanhos de fila para seu cluster.

Métrica Descrição
ConcurrentSearchRate

O número total de solicitações de pesquisa usando a pesquisa simultânea de segmentos por minuto para todos os fragmentos em um nó de dados. Uma única chamada para o _search API pode retornar resultados de vários fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

ConcurrentSearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas usando a pesquisa simultânea de segmentos em um nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

IndexingLatency

A diferença no tempo total, em milissegundos, obtida por todas as operações de indexação em um nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

IndexingRate

O número de operações de indexação por minuto. Uma única chamada para o _bulk API que adiciona dois documentos e atualiza dois conta como quatro operações, que podem estar espalhadas por um ou mais nós. Se esse índice tiver uma ou mais réplicas e estiver em um OpenSearch domínio sem instâncias otimizadas, outros nós no cluster também registrarão um total de quatro operações de indexação. Para OpenSearch domínios com instâncias otimizadas, outros nós com réplicas não registram nenhuma operação. Exclusões de documento não são consideradas para essa métrica.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

SearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas em um nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

SearchRate

O número total de solicitações de pesquisa por minuto para todos os fragmentos em um nó de dados. Uma única chamada para o _search API pode retornar resultados de vários fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

SegmentCount

O número de segmentos em um nó de dados. Quanto mais segmentos você tiver, mais tempo levará cada pesquisa. OpenSearch ocasionalmente mescla segmentos menores em um maior.

Estatísticas de nós relevantes: máximo, média

Estatísticas do cluster relevante: soma, máximo, média

SysMemoryUtilization

O percentual de memória da instância que está em uso. Valores altos para essa métrica são normais e geralmente não representam um problema com seu cluster. Para obter um melhor indicador de possíveis problemas de performance e estabilidade, consulte a métrica JVMMemoryPressure.

Estatísticas do nó relevante: mínimo, máximo, média

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

JVMGCYoungCollectionCount

O número de vezes que a coleta de lixo “nova geração” foi executada. Um grande número de execuções crescente é uma parte normal das operações do cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCYoungCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou executando a coleta de lixo "nova geração".

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCOldCollectionCount

O número de vezes que a coleta de lixo “geração antiga” foi executada. Em um cluster com recursos suficientes, esse número deve permanecer pequeno e com crescimento com pouca frequência.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

JVMGCOldCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou executando a coleta de lixo “geração antiga”.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsConcurrentConnections

O número de conexões simultâneas ativas com os OpenSearch painéis. Se esse número continuar a crescer, considere escalar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHealthyNode

Uma verificação de saúde para o nó individual dos OpenSearch painéis. Um valor de 1 indica comportamento normal. Um valor de 0 indica que Dashboards está inacessível.

Estatísticas do nó relevante: mínimo

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

OpenSearchDashboardsHeapTotal

A quantidade de memória de pilha alocada aos OpenSearch painéis em MiB. Diferentes tipos de EC2 instância podem afetar a alocação exata de memória.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHeapUsed

A quantidade absoluta de memória de pilha usada pelos OpenSearch painéis em MiB.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

OpenSearchDashboardsHeapUtilization

A porcentagem máxima de memória de pilha disponível usada pelos OpenSearch painéis. Se esse valor aumentar acima de 80%, considere escalar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas relevantes de cluster: mínimo, máximo, média, soma

OpenSearchDashboardsOS1MinuteLoad

A média de CPU carga de um minuto para OpenSearch painéis. Idealmente, a CPU carga deve ficar abaixo de 1,00. Embora picos temporários não sejam um problema, recomendamos aumentar o tamanho do tipo de instância se essa métrica estiver consistentemente acima de 1,00.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

OpenSearchDashboardsRequestTotal

A contagem total de HTTP solicitações feitas aos OpenSearch painéis. Se o sistema estiver lento ou você observar números elevados de solicitações de painéis, considere aumentar o tamanho do tipo de instância.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma

OpenSearchDashboardsResponseTimesMaxInMillis

O tempo máximo, em milissegundos, necessário para que os OpenSearch painéis respondam a uma solicitação. Se as solicitações demorarem consistentemente muito tempo para retornar resultados, considere aumentar o tamanho do tipo de instância.

Estatísticas do nó relevante: máximo

Estatísticas de cluster relevantes máximo, média

SearchTaskCancelled

O número de cancelamentos do nó coordenador.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma

SearchShardTaskCancelled

O número de cancelamentos de nós de dados.

Estatísticas de nós relevantes: soma

Estatísticas do cluster relevante: soma,

ThreadpoolForce_mergeQueue

O número de tarefas na fila no grupo de thread de união de força. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolForce_mergeRejected

O número de tarefas rejeitadas no grupo de thread de união de força. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolForce_mergeThreads

O tamanho do grupo de threads de união de força.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolIndexQueue

O número de tarefas na fila no grupo de thread de índice. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho máximo da fila de índice é de 200.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolIndexRejected

O número de tarefas rejeitadas no grupo de thread de índice. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolIndexThreads

O tamanho do grupo de threads de índice.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolSearchQueue

O número de tarefas na fila no grupo de thread de pesquisa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho da fila de pesquisa máximo é 1.000.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolSearchRejected

O número de tarefas rejeitadas no grupo de thread de pesquisa. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolSearchThreads

O tamanho do grupo de threads de pesquisa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Threadpoolsql-workerQueue

O número de tarefas em fila no pool de tópicos de SQL pesquisa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

Threadpoolsql-workerRejected

O número de tarefas rejeitadas no pool SQL de tópicos de pesquisa. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

Threadpoolsql-workerThreads

O tamanho do pool de tópicos de SQL pesquisa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolBulkQueue

O número de tarefas na fila no grupo de thread em massa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolBulkRejected

O número de tarefas rejeitadas no grupo de thread em massa. Se esse número continuar a crescer, considere escalonar seu cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolBulkThreads

O tamanho do grupo de threads em massa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolIndexSearcherQueue

O número de tarefas na fila no grupo de threads de buscador de índice.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

ThreadpoolIndexSearcherRejected

O número de tarefas rejeitadas no grupo de thread de buscador de índice.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

ThreadpoolIndexSearcherThreads

O tamanho do grupo de threads de buscador de pesquisa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteThreads

O tamanho do grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteQueue

O número de tarefas na fila no grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

ThreadpoolWriteRejected

O número de tarefas rejeitadas no grupo de threads de gravação.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

nota

Como o tamanho padrão da fila de gravação foi aumentado de 200 para 10000 na versão 7.1, essa métrica não é mais o único indicador de rejeições do Serviço. OpenSearch Use as métricas CoordinatingWriteRejected, PrimaryWriteRejected e ReplicaWriteRejected para monitorar rejeições nas versões 7.1 e posteriores.

CoordinatingWriteRejected

O número total de rejeições ocorreu no nó de coordenação devido à pressão de indexação desde a última inicialização do processo de OpenSearch serviço.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

PrimaryWriteRejected

O número total de rejeições ocorreu nos fragmentos primários devido à pressão de indexação desde a última inicialização do processo de OpenSearch serviço.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

ReplicaWriteRejected

O número total de rejeições ocorreu nos fragmentos de réplica devido à pressão de indexação desde a última OpenSearch inicialização do processo de serviço.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

Esta métrica está disponível na versão 7.1 e posteriores.

UltraWarm métricas

O Amazon OpenSearch Service fornece as seguintes métricas para UltraWarmnós.

Métrica Descrição
WarmCPUUtilization

A porcentagem de CPU uso UltraWarm dos nós no cluster. Maximum mostra o nó com o maior CPU uso. A média representa todos os UltraWarm nós no cluster. Essa métrica também está disponível para UltraWarm nós individuais.

Estatísticas relevantes: máximo, média

WarmFreeStorageSpace

A quantidade de espaço de armazenamento de alta atividade livre em MiB. Como UltraWarm usa o Amazon S3 em vez de discos conectados, Sum é a única estatística relevante. Você deve deixar o período em um minuto para receber um valor preciso.

Estatísticas relevantes: soma

WarmSearchableDocuments

O número total de documentos pesquisáveis em todos os índices warm no cluster. Você deve deixar o período em um minuto para receber um valor preciso.

Estatísticas relevantes: soma

WarmSearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas UltraWarm entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máximo

WarmSearchRate

O número total de solicitações de pesquisa por minuto para todos os fragmentos em um UltraWarm nó. Uma única chamada para o _search API pode retornar resultados de vários fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: média, máxima, soma

WarmStorageSpaceUtilization

A quantidade total de espaço de armazenamento de alta atividade, em MiB, que o cluster está usando.

Estatística relevante: máximo

HotStorageSpaceUtilization

A quantidade total de espaço de armazenamento de atividade muito alta que o cluster está usando.

Estatística relevante: máximo

WarmSysMemoryUtilization

A porcentagem de memória do nó de alta atividade que está em uso.

Estatística relevante: máximo

HotToWarmMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento quente para o armazenamento warm.

Estatística relevante: máximo

WarmToHotMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento warm para o armazenamento quente.

Estatística relevante: máximo

HotToWarmMigrationFailureCount

O número total de migrações de atividade muito alta para alta atividade que falharam.

Estatísticas relevantes: soma

HotToWarmMigrationForceMergeLatency

A latência média da etapa de forçar mesclagem do processo de migração. Se este estágio demorar muito de forma consistente, considere aumentar index.ultrawarm.migration.force_merge.max_num_segments.

Estatística relevante: média

HotToWarmMigrationSnapshotLatency

A latência média da etapa de snapshot do processo de migração. Se esse estágio demorar muito de forma consistente, certifique-se de que os fragmentos estejam adequadamente dimensionados e distribuídos por todo o cluster.

Estatística relevante: média

HotToWarmMigrationProcessingLatency

A latência média de migrações de atividade muito alta para alta atividade bem-sucedidas, nãoincluindo tempo gasto na fila. Esse valor é a soma do tempo necessário para concluir os estágios de forçar mesclagem, snapshot e realocação de fragmentos do processo de migração.

Estatística relevante: média

HotToWarmMigrationSuccessCount

O número total de migrações de atividade muito alta para alta atividade bem-sucedidas.

Estatísticas relevantes: soma

HotToWarmMigrationSuccessLatency

A latência média de migrações de atividade muito alta para alta atividade bem-sucedidas, incluindo tempo gasto na fila.

Estatística relevante: média

WarmThreadpoolSearchThreads

O tamanho do pool de tópicos de UltraWarm pesquisa.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: média, soma

WarmThreadpoolSearchRejected

O número de tarefas rejeitadas no pool UltraWarm de tópicos de pesquisa. Se esse número aumentar continuamente, considere adicionar mais UltraWarm nós.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

WarmThreadpoolSearchQueue O número de tarefas em fila no pool de tópicos de UltraWarm pesquisa. Se o tamanho da fila for consistentemente alto, considere adicionar mais UltraWarm nós.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMMemoryPressure

A porcentagem máxima do heap Java usada para os UltraWarm nós.

Estatística relevante: máximo

nota

A lógica dessa métrica foi alterada no software de serviço R20220323. Para obter mais informações, consulte as notas de lançamento.

WarmOldGenJVMMemoryPressure

A porcentagem máxima do heap Java usada para a “geração antiga” por UltraWarm nó.

Estatística relevante: máximo

WarmJVMGCYoungCollectionCount

O número de vezes que a coleta de lixo da “geração jovem” foi executada em UltraWarm nós. Um grande número de execuções crescente é uma parte normal das operações do cluster.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMGCYoungCollectionTime

A quantidade de tempo, em milissegundos, que o cluster gastou realizando a coleta de lixo da “geração jovem” nos UltraWarm nós.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmJVMGCOldCollectionCount

O número de vezes que a coleta de lixo da “velha geração” foi executada em UltraWarm nós. Em um cluster com recursos suficientes, esse número deve permanecer pequeno e com crescimento com pouca frequência.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmConcurrentSearchRate

O número total de solicitações de pesquisa usando a pesquisa simultânea por segmento por minuto para todos os fragmentos em um UltraWarm nó. Uma única chamada para o _search API pode retornar resultados de vários fragmentos diferentes. Se cinco desses fragmentos estiverem em um nó, o nó reportará 5 para essa métrica, mesmo se o cliente só fizer uma solicitação.

Estatísticas do nó relevante: média

Estatísticas do cluster relevante: soma, máximo, média

WarmConcurrentSearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas usando a pesquisa simultânea de segmentos em um UltraWarm nó entre o minuto N e o minuto (N-1).

Estatísticas do nó relevante: média

Estatísticas de cluster relevantes máximo, média

WarmThreadpoolIndexSearcherQueue

O número de tarefas em fila no pool de threads do pesquisador de UltraWarm índices.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, máximo, média

WarmThreadpoolIndexSearcherRejected

O número de tarefas rejeitadas no pool de threads do pesquisador de UltraWarm índices.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma

WarmThreadpoolIndexSearcherThreads

O tamanho do pool de threads do pesquisador de UltraWarm índices.

Estatísticas do nó relevante: máximo

Estatísticas do cluster relevante: soma, média

Métricas de armazenamento de baixa atividade

O Amazon OpenSearch Service fornece as seguintes métricas para armazenamento a frio.

Métrica Descrição
ColdStorageSpaceUtilization

A quantidade total de espaço de armazenamento de baixa atividade, em MiB, que o cluster está usando.

Estatísticas relevantes: máx.

ColdToWarmMigrationFailureCount

O número total de migrações de baixa atividade para alta atividade que falharam.

Estatísticas relevantes: soma

ColdToWarmMigrationLatency

A quantidade de tempo necessária para que as migrações de baixa atividade para alta atividade sejam concluídas.

Estatística relevante: média

ColdToWarmMigrationQueueSize

O número de índices aguardando no momento para a migração do armazenamento frio para o armazenamento warm.

Estatística relevante: máximo

ColdToWarmMigrationSuccessCount

O número total de migrações de baixa atividade para alta atividade bem-sucedidas.

Estatísticas relevantes: soma

WarmToColdMigrationFailureCount

O número total de migrações de alta atividade para baixa atividade que falharam.

Estatísticas relevantes: soma

WarmToColdMigrationLatency

A quantidade de tempo necessária para que as migrações de alta atividade para baixa atividade sejam concluídas.

Estatística relevante: média

WarmToColdMigrationQueueSize

O número de índices aguardando atualmente para migrar do armazenamento warm para o armazenamento frio.

Estatística relevante: máximo

WarmToColdMigrationSuccessCount

O número total de migrações de alta atividade para baixa atividade bem-sucedidas.

Estatísticas relevantes: soma

OR1métricas

O Amazon OpenSearch Service fornece as seguintes métricas para OR1instâncias.

Métrica Descrição
RemoteStorageUsedSpace

A quantidade total de espaço do Amazon S3, em MiB, que o cluster está usando.

Estatísticas relevantes: soma

RemoteStorageWriteRejected

O número total de solicitações rejeitadas nos fragmentos primários devido à pressão de armazenamento e replicação remotos. Isso é calculado a partir da última inicialização do processo de OpenSearch serviço.

Estatísticas relevantes: soma

ReplicationLagMaxTime

A quantidade de tempo, em milissegundos, que os fragmentos de réplica ficam atrasados em relação aos fragmentos primários.

Estatística relevante: máximo

Métricas de alerta

O Amazon OpenSearch Service fornece as seguintes métricas para alertas.

Métrica Descrição
AlertingDegraded

Um valor de 1 significa que o índice de alerta é vermelho ou um ou mais nós não estão na programação. Um valor de 0 indica comportamento normal.

Estatística relevante: máximo

AlertingIndexExists

Um valor de 1 significa que o índice .opensearch-alerting-config existe. Um valor de 0 significa que não. Até que você use o recurso de alerta pela primeira vez, esse valor permanecerá como 0.

Estatística relevante: máximo

AlertingIndexStatus.green

A integridade do índice. Um valor de 1 significa verde. Um valor de 0 significa que o índice não existe ou não está verde.

Estatística relevante: máximo

AlertingIndexStatus.red

A integridade do índice. Um valor de 1 significa vermelho. Um valor de 0 significa que o índice não existe ou não está vermelho.

Estatística relevante: máximo

AlertingIndexStatus.yellow

A integridade do índice. Um valor de 1 significa amarelo. Um valor de 0 significa que o índice não existe ou não está amarelo.

Estatística relevante: máximo

AlertingNodesNotOnSchedule

Um valor de 1 significa que alguns trabalhos não estão sendo executados de acordo com a programação. Um valor de 0 significa que todos os trabalhos de alerta estão sendo executados de acordo com a programação (ou que não existem trabalhos de alerta). Verifique o console OpenSearch de serviços ou faça uma _nodes/stats solicitação para ver se algum nó mostra alto uso de recursos.

Estatística relevante: máximo

AlertingNodesOnSchedule

Um valor de 1 significa que todos os trabalhos de alerta estão em execução de acordo com a programação (ou que não existem trabalhos de alerta). Um valor de 0 significa que alguns trabalhos não estão sendo executados de acordo com a programação.

Estatística relevante: máximo

AlertingScheduledJobEnabled

Um valor de 1 significa que a configuração do cluster opensearch.scheduled_jobs.enabled é verdadeira. Um valor de 0 significa que é falsa e os trabalhos programados estão desabilitados.

Estatística relevante: máximo

Métricas de detecção de anomalias

O Amazon OpenSearch Service fornece as seguintes métricas para detecção de anomalias.

Métrica Descrição
ADPluginUnhealthy

Um valor de 1 significa que o plug-in de detecção de anomalias não está funcionando corretamente, seja por causa de um alto número de falhas, seja porque um dos índices que ele usa é vermelho. Um valor de 0 indica que o plug-in está funcionando conforme esperado.

Estatística relevante: máximo

ADExecuteRequestCount

O número de solicitações para detectar anomalias.

Estatísticas relevantes: soma

ADExecuteFailureCount

O número de solicitações com falha para detecção de anomalias.

Estatísticas relevantes: soma

ADHCExecuteFailureCount

O número de solicitações de detecção de anomalias para detectores de alta cardinalidade que falharam.

Estatísticas relevantes: soma

ADHCExecuteRequestCount

O número de solicitações de detecção de anomalias para detectores de alta cardinalidade.

Estatísticas relevantes: soma

ADAnomalyResultsIndexStatusIndexExists

Um valor de 1 significa que o índice para o qual o alias .opensearch-anomaly-results aponta existe. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyResultsIndexStatus.red

Um valor de 1 significa que o índice para o qual o alias .opensearch-anomaly-results aponta é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyDetectorsIndexStatusIndexExists

Um valor de 1 significa que o índice .opensearch-anomaly-detectors existe. Um valor de 0 significa que não. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADAnomalyDetectorsIndexStatus.red

Um valor de 1 significa que o índice .opensearch-anomaly-detectors é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADModelsCheckpointIndexStatusIndexExists

Um valor de 1 significa que o índice .opensearch-anomaly-checkpoints existe. Um valor de 0 significa que não. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

ADModelsCheckpointIndexStatus.red

Um valor de 1 significa que o índice .opensearch-anomaly-checkpoints é vermelho. Um valor de 0 significa que não é. Até que o recurso de detecção de anomalias seja usado pela primeira vez, esse valor permanecerá 0.

Estatística relevante: máximo

O Amazon OpenSearch Service fornece as seguintes métricas para pesquisa assíncrona.

Estatísticas de nó coordenador de pesquisa assíncrona (por nó coordenador)

Métrica Descrição
AsynchronousSearchSubmissionRate

O número de pesquisas assíncronas enviadas no último minuto.

AsynchronousSearchInitializedRate

O número de pesquisas assíncronas inicializadas no último minuto.

AsynchronousSearchRunningCurrent

O número de pesquisas assíncronas atualmente em execução.

AsynchronousSearchCompletionRate

O número de pesquisas assíncronas concluídas com êxito no último minuto.

AsynchronousSearchFailureRate

O número de pesquisas assíncronas que foram concluídas e falharam no último minuto.

AsynchronousSearchPersistRate

O número de pesquisas assíncronas que persistiram no último minuto.

AsynchronousSearchPersistFailedRate

O número de pesquisas assíncronas que falharam ao persistir no último minuto.

AsynchronousSearchRejected

O número total de pesquisas assíncronas rejeitadas desde o momento de ativação do nó.

AsynchronousSearchCancelled

O número total de pesquisas assíncronas canceladas desde o momento de ativação do nó.

AsynchronousSearchMaxRunningTime

A duração da pesquisa assíncrona de execução mais longa em um nó no último minuto.

Estatísticas de cluster de pesquisa assíncrona

Métrica Descrição
AsynchronousSearchStoreHealth

A integridade da loja no índice persistente (RED/non-RED) no último minuto.

AsynchronousSearchStoreSize

O tamanho do índice do sistema em todos os fragmentos no último minuto.

AsynchronousSearchStoredResponseCount

O número de respostas armazenadas no índice do sistema no último minuto.

Métricas do Auto-Tune

O Amazon OpenSearch Service fornece as seguintes métricas para o Auto-Tune.

Métrica Descrição
AutoTuneChangesHistoryHeapSize

O histórico de alterações em MiB para valores de ajuste do tamanho da pilha.

AutoTuneChangesHistoryJVMYoungGenArgs

O histórico de mudanças nas JVM YongGen discussões.

AutoTuneFailed

Um booleano que indica se a alteração do Auto-Tune falhou.

AutoTuneSucceeded

Um booleano que indica se a alteração do Auto-Tune foi bem-sucedida.

AutoTuneValue O histórico de alterações da fila (contagem) e o histórico de alterações dos ajustes do cache (em MiB) para alterações sem interrupções.

Métricas do multi-AZ com modo de espera

O Amazon OpenSearch Service fornece as seguintes métricas para Multi-AZ com Standby.

Métricas em nível de nó para nós de dados em zonas de disponibilidade ativas

Métrica Descrição
CPUUtilization A porcentagem de CPU uso dos nós de dados no cluster. Maximum mostra o nó com o maior CPU uso. Average (Médio) representa todos os nós no cluster. Esta métrica também está disponível para nós individuais.
FreeStorageSpace

O espaço livre para nós de dados no cluster. Sum mostra o espaço livre total para o cluster, mas é necessário deixar o período em um minuto para obter um valor exato. Minimum e Maximum mostram os nós com o menor e o maior espaço livre, respectivamente. Essa métrica também está disponível para nós individuais. OpenSearch O serviço lança um ClusterBlockException quando essa métrica atinge0. Para se recuperar, você deve excluir índices, adicionar instâncias maiores ou adicionar armazenamento EBS baseado às instâncias existentes. Para saber mais, consulte Falta de espaço de armazenamento disponível.

O console OpenSearch de serviço exibe esse valor em GiB. O CloudWatch console da Amazon o exibe em MiB.

JVMMemoryPressure A porcentagem máxima do heap Java usada para todos os nós de dados no cluster. OpenSearch O serviço usa metade de uma instância RAM para o heap Java, até um tamanho de heap de 32 GiB. Você pode escalar instâncias verticalmente até 64 GiB RAM de, momento em que você pode escalar horizontalmente adicionando instâncias. Consulte CloudWatch Alarmes recomendados para o Amazon Service OpenSearch .
SysMemoryUtilization O percentual de memória da instância que está em uso. Valores altos para essa métrica são normais e geralmente não representam um problema com seu cluster. Para obter um melhor indicador de possíveis problemas de performance e estabilidade, consulte a métrica JVMMemoryPressure.
IndexingLatency

A diferença no tempo total, em milissegundos, obtida por todas as operações de indexação em um nó entre o minuto N e o minuto (N-1).

IndexingRate O número de operações de indexação por minuto.
SearchLatency

A diferença no tempo total, em milissegundos, obtida por todas as pesquisas em um nó entre o minuto N e o minuto (N-1).

SearchRate O número total de solicitações de pesquisa por minuto para todos os fragmentos em um nó de dados.
ThreadpoolSearchQueue O número de tarefas na fila no grupo de thread de pesquisa. Se o tamanho da fila é consistentemente alto, considere escalonar seu cluster. O tamanho da fila de pesquisa máximo é 1.000.
ThreadpoolWriteQueue O número de tarefas na fila no grupo de threads de gravação.
ThreadpoolSearchRejected

O número de tarefas rejeitadas no grupo de thread de pesquisa. Se esse número continuar a crescer, considere escalonar seu cluster.

ThreadpoolWriteRejected O número de tarefas rejeitadas no grupo de threads de gravação.

Métricas no nível do cluster para clusters em zonas de disponibilidade ativas

Métrica Descrição
DataNodes O número total de fragmentos ativos e em espera.
DataNodesShards.active O número total de fragmentos ativos primários e de réplica.
DataNodesShards.unassigned

O número de fragmentos que não estão alocados a nós no cluster.

DataNodesShards.initializing O número de fragmentos que estão em inicialização.
DataNodesShards.relocating O número de fragmentos que estão em relocação.

Métricas de alternação da zona de disponibilidade

Se ActiveReads.Availability-Zone = 1, então a zona está ativa. Se ActiveReads.Availability-Zone = 0, então a zona está em modo de espera.

Métricas pontuais

O Amazon OpenSearch Service fornece as seguintes métricas para pesquisas pontuais (PIT).

PITestatísticas do nó coordenador (por nó do coordenador)

Métrica Descrição
CurrentPointInTime O número de contextos de PIT pesquisa ativos no nó.
TotalPointInTime O número de contextos de PIT pesquisa expirados desde o tempo de atividade do nó.
AvgPointInTimeAliveTime A média de manutenção ativa dos contextos de PIT pesquisa desde o momento em que o nó está ativo.
HasActivePointInTime Um valor de 1 indica que há PIT contextos ativos nos nós desde o tempo de atividade do nó. Um valor de zero significa que não há.
HasUsedPointInTime Um valor de 1 indica que há PIT contextos expirados nos nós desde o tempo de atividade do nó. Um valor de zero significa que não há.

SQLmétricas

O Amazon OpenSearch Service fornece as seguintes métricas de SQLsuporte.

Métrica Descrição
SQLFailedRequestCountByCusErr

O número de solicitações para o _sql API que falharam devido a um problema do cliente. Por exemplo, uma solicitação pode retornar HTTP o código de status 400 devido a umIndexNotFoundException.

Estatísticas relevantes: soma

SQLFailedRequestCountBySysErr

O número de solicitações para o _sql API que falharam devido a um problema no servidor ou a uma limitação de recursos. Por exemplo, uma solicitação pode retornar HTTP o código de status 503 devido a a. VerificationException

Estatísticas relevantes: soma

SQLRequestCount

O número de solicitações para _sql API o.

Estatísticas relevantes: soma

SQLDefaultCursorRequestCount

Semelhante a SQLRequestCount, mas conta apenas solicitações de paginação.

Estatísticas relevantes: soma

SQLUnhealthy

Um valor de 1 indica que, em resposta a determinadas solicitações, o SQL plug-in está retornando 5 códigos de resposta xx ou passando uma consulta inválida DSL para OpenSearch. Outras solicitações devem continuar a ter êxito. Um valor de 0 indica que não há falhas recentes. Se você vir um valor sustentado de 1, solucione o problema das solicitações que seus clientes estão fazendo ao plug-in.

Estatística relevante: máximo

Métricas de k-NN

O Amazon OpenSearch Service inclui as seguintes métricas para o plug-in k-near neighbor (k-NN).

Métrica Descrição
KNNCacheCapacityReached

Métrica por nó para determinar se a capacidade do cache foi atingida. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: máximo

KNNCircuitBreakerTriggered

Métrica por cluster para determinar se o disjuntor foi acionado. Se algum nó retornar um valor 1 para KNNCacheCapacityReached, esse valor também retornará 1. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: máximo

KNNEvictionCount

Métrica por nó para o número de gráficos que foram removidos do cache devido a restrições de memória ou tempo ocioso. Remoções explícitas que ocorrem devido à exclusão do índice não são contadas. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNGraphIndexErrors

Métrica por nó para o número de solicitações para adicionar o campo knn_vector de um documento a um gráfico que produziram erros.

Estatísticas relevantes: soma

KNNGraphIndexRequests

Métrica por nó para o número de solicitações para adicionar o campo knn_vector de um documento a um gráfico.

Estatísticas relevantes: soma

KNNGraphMemoryUsage

Métrica por nó para o tamanho do cache atual (tamanho total de todos os gráficos na memória) em kilobytes. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatística relevante: média

KNNGraphQueryErrors

Métrica por nó para o número de consultas de gráfico que produziram erros.

Estatísticas relevantes: soma

KNNGraphQueryRequests

Métrica por nó para o número de consultas de gráfico.

Estatísticas relevantes: soma

KNNHitCount

Métrica por nó para o número de acertos de cache. Um acerto de cache ocorre quando um usuário consulta um gráfico que já está carregado na memória. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNLoadExceptionCount

Métrica por nó para o número de vezes que uma exceção ocorreu ao tentar carregar um gráfico no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNLoadSuccessCount

Métrica por nó para o número de vezes que o plug-in carregou com êxito um gráfico no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNMissCount

Métrica por nó para o número de perdas do cache. Uma perda de cache ocorre quando um usuário consulta um gráfico que ainda não está carregado na memória. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

KNNQueryRequests

Métrica por nó para o número de solicitações de consulta recebidas pelo plug-in k-NN.

Estatísticas relevantes: soma

KNNScriptCompilationErrors

Métrica por nó para o número de erros durante a compilação de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptCompilations

Métrica por nó para o número de vezes que o script k-NN foi compilado. Esse valor normalmente deve ser 1 ou 0, mas se o cache que contém os scripts compilados estiver preenchido, o script k-NN poderá ser recompilado. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptQueryErrors

Métrica por nó para o número de erros durante consultas de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNScriptQueryRequests

Métrica por nó para o número total de consultas de scripts. Essa estatística só é relevante para a pesquisa de scripts de pontuação k-NN.

Estatísticas relevantes: soma

KNNTotalLoadTime

O tempo em nanossegundos que o algoritmo k-NN demorou para carregar gráficos no cache. Essa métrica só é relevante para pesquisas k-NN aproximadas.

Estatísticas relevantes: soma

O Amazon OpenSearch Service fornece as seguintes métricas para pesquisa entre clusters.

Métricas de domínio de origem

Métrica Dimensão Descrição
CrossClusterOutboundConnections

ConnectionId

Número de nós conectados. Se sua resposta incluir um ou mais domínios ignorados, use essa métrica para rastrear quaisquer conexões não íntegras. Se esse número cair para 0, a conexão não estará íntegra.

CrossClusterOutboundRequests

ConnectionId

Número de solicitações de pesquisa enviadas para o domínio de destino. Use para verificar se a carga de solicitações de pesquisa entre clusters está sobrecarregando seu domínio, correlacione qualquer pico nessa métrica com qualquer /spike. JVM CPU

Métrica de domínio de destino

Métrica Dimensão Descrição
CrossClusterInboundRequests

ConnectionId

Número de solicitações de conexão de entrada recebidas do domínio de origem.

Adicione um CloudWatch alarme no caso de você perder uma conexão inesperadamente. Para ver as etapas para criar um alarme, consulte Criar um CloudWatch alarme com base em um limite estático.

Métricas de replicação entre clusters

O Amazon OpenSearch Service fornece as seguintes métricas para replicação entre clusters.

Métrica Descrição
ReplicationRate

A taxa média de operações de replicação por segundo. Essa métrica é semelhante à métrica do IndexingRate.

LeaderCheckPoint

Para uma conexão específica, a soma dos valores do ponto de verificação líder em todos os índices de replicação. Você pode usar essa métrica para medir a latência de replicação.

FollowerCheckPoint

Para uma conexão específica, a soma dos valores do ponto de verificação seguidor em todos os índices de replicação. Você pode usar essa métrica para medir a latência de replicação.

ReplicationNumSyncingIndices

O número de índices que têm um status de replicação de SYNCING.

ReplicationNumBootstrappingIndices

O número de índices que têm um status de replicação de BOOTSTRAPPING.

ReplicationNumPausedIndices

O número de índices que têm um status de replicação de PAUSED.

ReplicationNumFailedIndices

O número de índices que têm um status de replicação de FAILED.

CrossClusterOutboundReplicationRequests

O número de solicitações de transporte de replicação no domínio seguidor. As solicitações de transporte são internas e ocorrem sempre que uma API operação de replicação é chamada. Também ocorrem quando as pesquisas do domínio do seguidor mudam do domínio líder.

CrossClusterInboundReplicationRequests

O número de solicitações de transporte de replicação no domínio líder. As solicitações de transporte são internas e ocorrem sempre que uma API operação de replicação é chamada.

AutoFollowNumSuccessStartReplication

O número de índices seguidores que foram criados com êxito por uma regra de replicação para uma conexão específica.

AutoFollowNumFailedStartReplication

O número de índices seguidores que falharam ao serem criados por uma regra de replicação quando havia um padrão de correspondência. Esse problema pode surgir devido a um problema de rede no cluster remoto ou devido a um problema de segurança (ou seja, a função associada não tem permissão para iniciar a replicação).

AutoFollowLeaderCallFailure

Se houve alguma consulta com falha entre o índice seguidor e o índice líder para extrair novos dados. Um valor de 1 significa que houve uma ou mais chamadas com falha no último minuto.

Métricas de Learning to Rank

O Amazon OpenSearch Service fornece as seguintes métricas para Learning to Rank.

Métrica Descrição
LTRRequestTotalCount

Contagem total de solicitações de classificação.

LTRRequestErrorCount

Contagem total de solicitações malsucedidas.

LTRStatus.red

Rastreia se um dos índices necessários para executar o plug-in é vermelho.

LTRMemoryUsage

Memória total usada pelo plug-in.

LTRFeatureMemoryUsageInBytes

A quantidade de memória, em bytes, usada pelos campos de recursos do Learning to Rank.

LTRFeaturesetMemoryUsageInBytes

A quantidade de memória, em bytes, usada por todos os conjuntos de recursos do Learning to Rank.

LTRModelMemoryUsageInBytes

A quantidade de memória, em bytes, usada por todos os modelos do Learning to Rank.

Métricas da Piped Processing Language

O Amazon OpenSearch Service fornece as seguintes métricas para a linguagem de processamento canalizada.

Métrica Descrição
PPLFailedRequestCountByCusErr

O número de solicitações para o _ppl API que falharam devido a um problema do cliente. Por exemplo, uma solicitação pode retornar HTTP o código de status 400 devido a umIndexNotFoundException.

PPLFailedRequestCountBySysErr

O número de solicitações para o _ppl API que falharam devido a um problema no servidor ou a uma limitação de recursos. Por exemplo, uma solicitação pode retornar HTTP o código de status 503 devido a a. VerificationException

PPLRequestCount

O número de solicitações para _ppl API o.