Fehler 429 oder Limit überschritten Ich sehe doppelte Beispiele Ich sehe Fehler bei Beispiel-Zeitstempeln Mir wird eine Fehlermeldung im Zusammenhang mit einem Limit angezeigt Ihre lokale Prometheus-Server-Ausgabe überschreitet das Limit.Einige meiner Daten werden nicht angezeigt HTTP 422-Fehler: Abfrage-Timeout

Fehlerbehebung bei Amazon Managed Service for Prometheus-Fehlern

Nutzen Sie die folgenden Abschnitte, um Probleme zu beheben, die Amazon Managed Service für Prometheus aufweist.

Themen

Fehler 429 oder Limit überschritten
Ich sehe doppelte Beispiele
Ich sehe Fehler bei Beispiel-Zeitstempeln
Mir wird eine Fehlermeldung im Zusammenhang mit einem Limit angezeigt
Ihre lokale Prometheus-Server-Ausgabe überschreitet das Limit.
Einige meiner Daten werden nicht angezeigt
HTTP 422-Fehler: Abfrage-Timeout

Fehler 429 oder Limit überschritten

Wenn Sie einen 429-Fehler ähnlich dem folgenden Beispiel sehen, haben Ihre Anfragen die Erfassungskontingente von Amazon Managed Service für Prometheus überschritten.


ts=2020-10-29T15:34:41.845Z caller=dedupe.go:112 component=remote level=error remote_name=e13b0c 
url=http://iamproxy-external.prometheus.uswest2-prod.eks:9090/workspaces/workspace_id/api/v1/remote_write 
msg="non-recoverable error" count=500 err="server returned HTTP status 429 
Too Many Requests: ingestion rate limit (6666.666666666667) exceeded while adding 499 samples and 0 metadata

Wenn Sie einen 429-Fehler ähnlich dem folgenden Beispiel sehen, haben Ihre Anfragen das Kontingent von Amazon Managed Service für Prometheus für die Anzahl der aktiven Metriken in einem Workspace überschritten.


ts=2020-11-05T12:40:33.375Z caller=dedupe.go:112 component=remote level=error remote_name=aps 
url=http://iamproxy-external.prometheus.uswest2-prod.eks:9090/workspaces/workspace_id/api/v1/remote_write 
msg="non-recoverable error" count=500 err="server returned HTTP status 429 Too Many Requests: user=accountid_workspace_id: 
per-user series limit (local limit: 0 global limit: 3000000 actual local limit: 500000) exceeded

Wenn Sie einen 429-Fehler ähnlich dem folgenden Beispiel sehen, haben Ihre Anfragen das Amazon Managed Service for Prometheus-Kontingent für die Rate (Transaktionen pro Sekunde) überschritten, mit der Sie Daten über die RemoteWrite Prometheus-kompatible API an Ihren Workspace senden können.


ts=2024-03-26T16:50:21.780708811Z caller=dedupe.go:112 component=remote level=error remote_name=ab123c 
url=https://aps-workspaces.us-east-1.amazonaws.com/workspaces/workspace_id/api/v1/remote_write 
msg="non-recoverable error" count=1000 exemplarCount=0 err="server returned HTTP status 429 Too Many Requests: {\"message\":\"Rate exceeded\"}"

Wenn Sie einen 400-Fehler ähnlich dem folgenden Beispiel sehen, haben Ihre Anfragen das Amazon Managed Service for Prometheus-Kontingent für aktive Zeitreihen überschritten. Einzelheiten darüber, wie aktive Zeitreihenkontingente behandelt werden, finden Sie unter. Standardkontingente für aktive Serien


ts=2024-03-26T16:50:21.780708811Z caller=push.go:53 level=warn
url=https://aps-workspaces.us-east-1.amazonaws.com/workspaces/workspace_id/api/v1/remote_write
msg="non-recoverable error" count=500 exemplarCount=0 
err="server returned HTTP status 400 Bad Request: maxFailure (quorum) on a given error family, rpc error: code = Code(400) 
desc = addr=10.1.41.23:9095 state=ACTIVE zone=us-east-1a, rpc error: code = Code(400) 
desc = user=accountid_workspace_id: per-user series limit of 10000000 exceeded, 
Capacity from 2,000,000 to 10,000,000 is automatically adjusted based on the last 30 min of usage. 
If throttled above 10,000,000 or in case of incoming surges, please contact administrator to raise it. 
(local limit: 0 global limit: 10000000 actual local limit: 92879)"

Weitere Informationen zum Servicekontingent von Amazon Managed Service für Prometheus und dazu, wie Sie Erhöhungen beantragen können, finden Sie unter Servicekontingente von Amazon Managed Service für Prometheus

Ich sehe doppelte Beispiele

Wenn Sie eine Prometheus Gruppe mit hoher Verfügbarkeit verwenden, müssen Sie externe Labels auf Ihren Prometheus-Instances verwenden, um die Deduplizierung einzurichten. Weitere Informationen finden Sie unter Deduplizierung von Hochverfügbarkeitsmetriken, die an Amazon Managed Service für Prometheus gesendet werden.

Weitere Probleme im Zusammenhang mit duplizierten Daten werden im nächsten Abschnitt behandelt.

Ich sehe Fehler bei Beispiel-Zeitstempeln

Amazon Managed Service for Prometheus nimmt die Daten der Reihe nach auf und erwartet, dass jede Probe einen Zeitstempel hat, der nach der vorherigen Probe liegt.

Wenn Ihre Daten nicht in der richtigen Reihenfolge ankommen, werden Ihnen Fehler zuout-of-order samples, oder angezeigt. duplicate sample for timestamp samples with different value but same timestamp Diese Probleme werden in der Regel durch eine falsche Einrichtung des Clients verursacht, der Daten an Amazon Managed Service for Prometheus sendet. Wenn Sie einen Prometheus-Client verwenden, der im Agentenmodus ausgeführt wird, überprüfen Sie die Konfiguration auf Regeln mit doppelten Seriennamen oder doppelten Zielen. Wenn Ihre Metriken den Zeitstempel direkt angeben, überprüfen Sie, ob sie nicht in der richtigen Reihenfolge sind.

Du kannst ein Zeitfenster einrichten, in dem dein Workspace nicht in der richtigen Reihenfolge Proben akzeptiert. Weitere Informationen finden Sie unter Konfiguriere deinen Workspace.

Weitere Informationen darüber, wie das funktioniert oder wie Sie Ihr Setup überprüfen können, finden Sie im Blogbeitrag Understanding Duplicate Samples and Out-of-order Timestamp Errors in Prometheus von Prom Labs.

Mir wird eine Fehlermeldung im Zusammenhang mit einem Limit angezeigt

Anmerkung

Amazon Managed Service for Prometheus bietet CloudWatch Nutzungsmetriken zur Überwachung der Prometheus-Ressourcennutzung. Mithilfe der Alarmfunktion für CloudWatch Nutzungsmetriken können Sie die Ressourcen und die Nutzung von Prometheus überwachen, um Limitfehler zu vermeiden.

Wenn Sie eine der folgenden Fehlermeldungen sehen, können Sie eine Erhöhung eines der Kontingente von Amazon Managed Service für Prometheus beantragen, um das Problem zu lösen. Weitere Informationen finden Sie unter Servicekontingente von Amazon Managed Service für Prometheus.

Das Serienlimit pro Benutzer <value> wurde überschritten. Bitte wenden Sie sich an den Administrator, um es zu erhöhen
Das Limit pro metrischer Datenreihe <value> wurde überschritten. Bitte wenden Sie sich an den Administrator, um es zu erhöhen
Limit für die Erfassungsrate (...) überschritten
Serie: Serie hat zu viele Etiketten (...): '%s'
der Abfragezeitbereich überschreitet das Limit (Abfragelänge: xxx, Limit: yyy)
Die Abfrage hat beim Erfassen von Chunks von Ingestern die maximale Anzahl von Chunks erreicht
Limit überschritten. Maximale Workspaces pro Konto.

Ihre lokale Prometheus-Server-Ausgabe überschreitet das Limit.

Amazon Managed Service für Prometheus verfügt über Servicekontingente für die Datenmenge, die ein Workspace von Prometheus-Servern empfangen kann. Um die Datenmenge zu ermitteln, die Ihr Prometheus-Server an Amazon Managed Service für Prometheus sendet, können Sie die folgenden Abfragen auf Ihrem Prometheus-Server ausführen. Wenn Sie feststellen, dass Ihre Prometheus-Ausgabe ein Limit von Amazon Managed Service für Prometheus überschreitet, können Sie eine Erhöhung des entsprechenden Servicekontingents beantragen. Weitere Informationen finden Sie unter Servicekontingente von Amazon Managed Service für Prometheus.

Abfragen an Ihren lokalen, selbst ausgeführten Prometheus-Server, um die Ausgabelimits zu ermitteln.
Datentyp	Zu verwendende Abfragen
Aktuelle aktive Serie	`prometheus_tsdb_head_series`
Aktuelle Erfassungsrate	`rate(prometheus_tsdb_head_samples_appended_total[5m])`
Most-to-least Liste der aktiven Serien pro Metrikname	`sort_desc(count by(__name__) ({__name__!=""}))`
Anzahl der Etiketten pro metrischer Serie	`group by(mylabelname) ({__name__!=""})`

Einige meiner Daten werden nicht angezeigt

Daten, die an Amazon Managed Service for Prometheus gesendet werden, können aus verschiedenen Gründen verworfen werden. Die folgende Tabelle zeigt Gründe, warum Daten möglicherweise verworfen und nicht aufgenommen werden.

Sie können die Menge und die Gründe, aus denen Daten verworfen wurden, mit Amazon verfolgen. CloudWatch Weitere Informationen finden Sie unter Verwenden Sie CloudWatch Metriken, um die Ressourcen von Amazon Managed Service for Prometheus zu überwachen.

Grund	Bedeutung
greater_than_max_sample_age	Logzeilen, die älter als die aktuelle Uhrzeit sind, werden gelöscht
new-value-for-timestamp	Doppelte Proben werden mit demselben Zeitstempel wie die vorherige Probe, aber mit unterschiedlichen Werten gesendet.
per_metric_series_limit	Der Benutzer hat das Limit für aktive Serien pro Metrik erreicht
per_user_series_limit	Der Benutzer hat das Limit für die Gesamtzahl der aktiven Serien erreicht
rate_limited	Erfassungsrate begrenzt
sample-out-of-order	Die Proben werden nicht in der richtigen Reihenfolge versandt und können nicht bearbeitet werden. Dieser Grund wird nur angezeigt, wenn das Zeitfenster für die Nichtbestellung auf 0 gesetzt ist.
Beispiel ist zu alt	Die Probe ist älter als das konfigurierte Zeitfenster, in dem die Reihenfolge abgelaufen ist, und kann nicht verarbeitet werden.
Ratenlimit bei Nichtbestellung	Out-of-order Die maximale Aufnahmerate wurde erreicht und die Probe kann nicht verarbeitet werden. Weitere Informationen finden Sie unter Servicekontingente von Amazon Managed Service für Prometheus.
label_value_too_long	Der Labelwert ist länger als die zulässige Zeichenbeschränkung
max_label_names_per_series	Der Benutzer hat die Etikettennamen pro Metrik erreicht
missing_metric_name	Der Name der Metrik wurde nicht angegeben
metric_name_invalid	Ungültiger Metrikname angegeben
label_invalid	Ungültiges Etikett angegeben
duplicate_label_names	Doppelte Etikettennamen angegeben
native_histogram_sample_size_bytes_exceeded	Die native Histogramm-Stichprobe überschreitet die maximal zulässige Stichprobengröße. Reduzieren Sie die Anzahl der Buckets oder Spans im Histogramm auf der Client-Seite.
native_histogram_invalid_schema	Das native Histogramm hat einen ungültigen Schemawert. Gültige Schemas liegen im Bereich von -4 bis 8. Überprüfen Sie Ihre Prometheus-Client-Konfiguration auf die `NativeHistogramBucketFactor` Einstellung.
native_histogram_invalid	Das native Histogramm schlägt bei der Überprüfung fehl (z. B. negative Bucket-Anzahl, nicht übereinstimmende Bucket-Anzahl oder falsch formatierte Bucket-Spans). Dies deutet in der Regel auf einen Fehler in der Instrumentierungsbibliothek hin.
native_histogram_buckets_exceeded	Das native Histogramm überschreitet die maximale Anzahl an Buckets und die Auflösung kann nicht automatisch reduziert werden. Reduzieren Sie die Anzahl der Buckets auf der Client-Seite mithilfe von. `NativeHistogramMaxBucketNumber`
native_histogram_rate_limited	Eine native Histogrammprobe wurde zurückgewiesen, da die maximale Aufnahmerate für native Histogramme erreicht wurde. Reduzieren Sie die Anzahl der nativen Histogrammreihen oder die Häufigkeit des Scrapes, oder fordern Sie eine Erhöhung des Grenzwerts an.
per_user_native_histogram_series_limit	Der Benutzer hat das Limit für aktive Serien für native Histogramme pro Workspace erreicht. Reduzieren Sie die Anzahl der nativen Histogrammreihen oder fordern Sie eine Erhöhung des Limits an.

HTTP 422-Fehler: Abfrage-Timeout

Wenn Ihre Abfrage länger als 1 Minute läuft, gibt Amazon Managed Service for Prometheus einen HTTP 422-Statuscode zurück. Das folgende Beispiel zeigt diesen Fehler:


{"status":"error","errorType":"execution","error":"query timed out - consider simplifying your query"}

Verwenden Sie einen oder mehrere der folgenden Ansätze, um die Evaluierungszeit zu verkürzen:

Geben Sie ein kürzeres Zeitfenster an, um weniger Proben auszuwerten.
Fügen Sie Label-Matcher hinzu, um die Anzahl der Serien zu reduzieren, die Ihre Abfrage auswertet.
Verwenden Sie Aufzeichnungsregeln, um teure Aggregationen, die Sie häufig abfragen, vorab zu berechnen.
Vermeiden Sie Regex-Matcher bei Labels mit hoher Kardinalität (Beschriftungen mit vielen Einzelwerten).

Weitere Informationen finden Sie unter Abfragen Ihrer Prometheus-Metriken.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Schnittstellen-VPC-Endpunkte

Tagging