Usa i CloudWatch parametri per monitorare le risorse di Amazon Managed Service for Prometheus

Amazon Managed Service for Prometheus fornisce metriche di utilizzo a. CloudWatch Questi parametri forniscono visibilità sull'utilizzo dell'area di lavoro. Le metriche fornite sono disponibili nei namespace e in. AWS/Usage AWS/Prometheus CloudWatch Queste metriche sono disponibili gratuitamente. CloudWatch Per informazioni sui parametri di utilizzo, consulta parametri di utilizzo di CloudWatch .

CloudWatch nome della metrica	Nome risorsa	CloudWatch spazio dei nomi	Description
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	Il numero massimo di operazioni `CreateAlertManagerAlerts` API al secondo, per area di lavoro
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	Il numero massimo di operazioni `DeleteAlertManagerSilences` API al secondo, per area di lavoro
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	Il numero massimo di operazioni `GetAlertManagerSilence` API al secondo, per area di lavoro
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	Il numero massimo di operazioni `GetAlertManagerStatus` API al secondo, per area di lavoro
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	Il numero massimo di operazioni `GetLabels` API al secondo, per area di lavoro
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	Il numero massimo di operazioni `GetMetricMetadata` API al secondo, per area di lavoro
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	Il numero massimo di operazioni `GetSeries` API al secondo, per area di lavoro
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	Il numero massimo di regole di inibizione nel file di definizione di alert manager.
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlertManagerAlertGroupInfos` API al secondo, per area di lavoro
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlertManagerAlertGroups` API al secondo, per area di lavoro
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlertManagerAlerts` API al secondo, per area di lavoro
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlertManagerReceivers` API al secondo, per area di lavoro
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlertManagerSilences` API al secondo, per area di lavoro
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	Il numero massimo di operazioni `ListAlerts` API al secondo, per area di lavoro
ResourceCount^*	ListRulesTPS	`AWS/Usage`	Il numero massimo di operazioni `ListRules` API al secondo, per area di lavoro
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	Il numero massimo di operazioni `PutAlertManagerSilences` API al secondo, per area di lavoro
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	Numero di gruppi di repliche ad alta disponibilità
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	Operazioni di interrogazione al secondo
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	Operazioni di scrittura remota al secondo
ResourceCount	ActiveAlerts	`AWS/Usage`	Numero di avvisi attivi per area di lavoro Unità: numero Statistiche valide: media, minima, massima
ResourceCount	ActiveSeries	`AWS/Usage`	Numero di serie attive per area di lavoro Unità: numero Statistiche valide: media, minima, massima
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	La dimensione massima di un gruppo di aggregazione degli avvisi nel file di definizione di alert manager. Ogni combinazione di valori di etichetta `group_by` creerebbe un gruppo di aggregazione.
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	La dimensione massima di un file di definizione di Alert Manager, in byte.
ResourceCount	AllSilences	`AWS/Usage`	Numero massimo di silenzi, inclusi quelli scaduti, attivi e in sospeso, per area di lavoro.
ResourceCount	IngestionRate	`AWS/Usage`	Frequenza di acquisizione del campione Unità: conteggio al secondo Statistiche valide: media, minima, massima
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	L'intervallo minimo di valutazione della regola
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	La dimensione massima di un file di definizione dello spazio dei nomi di un gruppo di regole, in byte.
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	Il numero massimo di modelli nel file di definizione di alert manager.
ResourceCount	WorkspaceCount	`AWS/Usage`	Il numero massimo di aree di lavoro per regione, per accountc.
ResourceCount	SizeOfAlerts	`AWS/Usage`	Dimensione totale di tutti gli avvisi nell'area di lavoro, in byte Unità: byte Statistiche valide: media, minima, massima
ResourceCount	SuppressedAlerts	`AWS/Usage`	Numero di avvisi in stato soppresso per area di lavoro. Un avviso può essere soppresso mediante un silenzio o un'inibizione. Unità: numero Statistiche valide: media, minima, massima
ResourceCount	UnprocessedAlerts	`AWS/Usage`	Numero di avvisi in stato non elaborato per area di lavoro. Un avviso è in stato non elaborato una volta ricevuto da AlertManager, ma è in attesa della successiva valutazione del gruppo di aggregazione. Unità: numero Statistiche valide: media, minima, massima
ResourceCount	AllAlerts	`AWS/Usage`	Numero di avvisi in qualsiasi stato per area di lavoro Unità: numero Statistiche valide: media, minima, massima
ResourceCount	AllRules	`AWS/Usage`	Numero di regole in qualsiasi stato per area di lavoro Unità: numero Statistiche valide: media, minima, massima
ResourceCount	NativeHistogramActiveSeries	`AWS/Usage`	Il numero di serie attive univoche dell'istogramma nativo per area di lavoro Unità: numero Statistiche valide: media, minima, massima
ResourceCount	NativeHistogramIngestionRate	`AWS/Usage`	Frequenza di inserimento dei campioni di istogramma nativo per area di lavoro al secondo Unità: conteggio al secondo Statistiche valide: media, minima, massima
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	L'attuale utilizzo della serie attiva per ogni set di etichette definito dall'utente Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	Il valore limite attuale delle serie attive per ogni set di etichette definito dall'utente Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AlertManagerAlertsReceived	-	`AWS/Prometheus`	Totale degli avvisi riusciti ricevuti dal gestore degli avvisi Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	Numero di consegne di avvisi non andate a buon fine Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	Numero di avvisi limitati Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	Numero totale di rilevatori di anomalie per un determinato spazio di lavoro Unità: numero Statistiche valide: media, minima, massima
AnomalyDetectorEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Numero totale di valutazioni dei rilevatori di anomalie Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AnomalyDetectorEvaluationFailures	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Numero di guasti del rilevatore di anomalie nell'intervallo Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AnomalyDetectorLastEvaluationDuration	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Durata dell'ultima valutazione di un rilevatore di anomalie Unità: secondi Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
AnomalyDetectorMissedEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Numero di valutazioni mancate del rilevatore di anomalie nell'intervallo Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
DiscardedSamples^**	-	`AWS/Prometheus`	Numero di campioni scartati per motivo Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
DiscardedSeries^**	-	`AWS/Prometheus`	Numero di serie che contengono un campione scartato per motivo Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	Il numero di campioni scartati per ogni set di etichette definito dall'utente Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	Il numero di serie che contengono un campione scartato per ogni set di etichette definito dall'utente Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
IngestionRatePerLabelSet	-	`AWS/Prometheus`	La velocità di ingestione per ogni set di etichette definito dall'utente Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
NativeHistogramIngestedBucketsRate	-	`AWS/Prometheus`	Frequenza di bucket popolati ricevuti al secondo su tutti i campioni di istogramma nativi. Esclude i bucket rifiutati. Unità: conteggio al secondo Statistiche valide: media, minima, massima
NativeHistogramReducedResolutionCount	-	`AWS/Prometheus`	Numero di campioni di istogramma nativi con risoluzione del bucket ridotta automaticamente. La risoluzione si riduce quando un campione supera il limite massimo di numero di bucket. Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
OutOfOrderIngestionRate	-	`AWS/Prometheus`	Out-of-order velocità di ingestione del campione Unità: conteggio al secondo Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
OutOfOrderSampleAge^***	-	`AWS/Prometheus`	La differenza tra il timestamp di un campione fuori servizio e il tempo di ingestione, che indica l'età del campione quando viene ingerito. Unità: secondi Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
QuerySamplesProcessed	-	`AWS/Prometheus`	Numero di esempi di interrogazione elaborati Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
RuleEvaluations	-	`AWS/Prometheus`	Numero totale di valutazioni delle regole Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
RuleEvaluationFailures	-	`AWS/Prometheus`	Numero di errori di valutazione delle regole nell'intervallo Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
RuleGroupIterationsMissed	-	`AWS/Prometheus`	Numero di iterazioni del gruppo di regole mancate nell'intervallo. Unità: numero Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	Durata dell'ultima valutazione di un gruppo di regole. Unità: secondi Statistiche valide: Average (Media), Minimum (Minimo), Maximum (Massimo), Sum (Somma)

^* Le metriche TPS vengono generate ogni minuto e rappresentano una media al secondo per quel minuto. I periodi di burst brevi non verranno inclusi nelle metriche TPS.

^** Alcuni dei motivi per cui i campioni vengono scartati sono i seguenti. Non tutti i motivi riportati di seguito vengono visualizzati nella metrica. DiscardedSeries

Motivo	Significato
greater_than_max_sample_age	Eliminare campioni più vecchi di un'ora.
new-value-for-timestamp	I campioni duplicati vengono inviati con lo stesso timestamp del campione precedente ma con valori diversi.
per_labelset_series_limit	L'utente ha raggiunto il limite totale di serie attive per set di etichette.
per_metric_series_limit	L'utente ha raggiunto il limite delle serie attive per metrica.
per_user_series_limit	L'utente ha raggiunto il limite totale di serie attive.
rate_limited	Tasso di ingestione limitato.
sample-out-of-order	I campioni vengono inviati fuori servizio e non possono essere elaborati.
campione troppo vecchio	Il campione è più vecchio della finestra temporale configurata come non ordinata e non può essere elaborato.
limite di tariffa non conforme all'ordine	Out-of-order è stato raggiunto il limite di velocità di ingestione e il campione non può essere processato. Per ulteriori informazioni, consulta Quote del servizio Amazon Managed Service per Prometheus.
label_value_too_long	Il valore dell'etichetta è superiore al limite di caratteri consentito.
max_label_names_per_series	L'utente ha raggiunto i nomi delle etichette per metrica.
missing_metric_name	Il nome della metrica non è fornito.
metric_name_invalid	Nome metrico fornito non valido.
label_invalid	Etichetta fornita non valida.
duplicate_label_names	Sono stati forniti nomi di etichetta duplicati.
native_histogram_sample_size_bytes_exceeded	Il campione di istogramma nativo supera la dimensione massima consentita in byte del campione.
native_histogram_invalid_schema	L'istogramma nativo ha un valore di schema non valido. Gli schemi validi vanno da -4 a 8.
native_histogram_invalid	L'istogramma nativo non riesce a convalidare (ad esempio, conteggi di bucket negativi, conteggi di bucket non corrispondenti o intervalli di bucket non formati).
native_histogram_buckets_exceeded	L'istogramma nativo supera il limite massimo di numero di bucket e la risoluzione non può essere ridotta automaticamente.
native_histogram_rate_limited	Il campione di istogramma nativo è stato rifiutato perché è stato raggiunto il limite di velocità di ingestione dell'istogramma nativo.
per_user_native_histogram_series_limit	L'utente ha raggiunto il limite di serie attive dell'istogramma nativo per area di lavoro.

^*** La OutOfOrderSampleAge metrica include una dimensione. Percentile Puoi utilizzare questa metrica per determinare la finestra temporale fuori servizio appropriata per il tuo spazio di lavoro. I valori validi per la Percentile dimensione sono i seguenti.

Percentile	Description
p50	L'età del 50° percentile dei campioni fuori servizio.
p99	L'età del 99° percentile dei campioni fuori servizio.
max	L'età massima dei campioni fuori ordine.

Nota

Un parametro non esistente o mancante è uguale al valore di quella metrica pari a 0.

Nota

RuleGroupIterationsMissed, RuleEvaluationsRuleEvaluationFailures, e RuleGroupLastEvaluationDuration hanno la RuleGroup dimensione della seguente struttura:

RuleGroupNamespace;RuleGroup

Impostazione di un CloudWatch allarme su Prometheus vended metrics

È possibile monitorare l'utilizzo delle risorse di Prometheus utilizzando gli allarmi. CloudWatch

Per impostare un allarme sul numero di ActiveSeries in Prometheus

Scegli la scheda Metriche grafiche e scorri verso il basso fino all'etichetta. ActiveSeries

Nella vista Parametri grafici, verranno visualizzati solo i parametri attualmente in fase di importazione.
Scegli l'icona di notifica nella colonna Azioni.
In Specificare parametri e condizioni, inserisci la condizione di soglia nel campo Valore condizioni e scegli Avanti.
In Configura azioni, seleziona un argomento SNS esistente o crea un nuovo argomento SNS a cui inviare la notifica.
In Aggiungi nome e descrizione, aggiungi il nome dell'allarme e una descrizione facoltativa.
Scegli Crea allarme.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Monitoraggio degli spazi di lavoro

CloudWatch Registri