CloudWatch Metriken für CPU-gestützte Endgeräte mit mehreren Modellen CloudWatch Metriken für GPU-Endpunktbereitstellungen mit mehreren Modellen

CloudWatch Metriken für Endpunktbereitstellungen mit mehreren Modellen

Amazon SageMaker AI stellt Metriken für Endgeräte bereit, sodass Sie die Cache-Trefferrate, die Anzahl der geladenen Modelle und die Wartezeiten der Modelle beim Laden, Herunterladen und Hochladen an einem Endpunkt mit mehreren Modellen überwachen können. Einige der Metriken unterscheiden sich für CPU- und GPU-gestützte Multimodell-Endpoints. Daher werden in den folgenden Abschnitten die CloudWatch Amazon-Metriken beschrieben, die Sie für jeden Typ von Multimodell-Endpoint verwenden können.

Weitere Informationen zu den Kennzahlen finden Sie unter Kennzahlen zum Laden von Multimodell-Endpunktmodellen und Kennzahlen für Multimodell-Endpunktmodell-Instances in Metriken für die Überwachung von Amazon SageMaker AI mit Amazon CloudWatch. Metriken pro Modell werden nicht unterstützt.

CloudWatch Metriken für CPU-gestützte Endgeräte mit mehreren Modellen

Auf CPU-gestützten Multimodell-Endpunkten können Sie die folgenden Kennzahlen überwachen.

Der AWS/SageMaker Namespace umfasst das folgende Modell zum Laden von Metriken aus Aufrufen an. InvokeEndpoint

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Informationen darüber, wie lange CloudWatch Metriken aufbewahrt werden, finden Sie GetMetricStatisticsin der Amazon CloudWatch API-Referenz.

Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Metrik	Beschreibung
`ModelLoadingWaitTime`	Der Zeitraum , über das hinweg eine Aufrufanforderung darauf gewartet hat, dass das Zielmodell heruntergeladen oder geladen wird, oder beides, um Interferenzen vorzunehmen. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelUnloadingTime`	Der Zeitraum , das zum Entladen des Modells über den `UnloadModel`-API-Aufruf des Containers erforderlich war. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelDownloadingTime`	Die Dauer, die es brauchte, das Modell von Amazon Simple Storage Service (Amazon S3) herunterzuladen. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelLoadingTime`	Der Zeitraum , das zum Laden des Modells über den `LoadModel`-API-Aufruf des Containers erforderlich war. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelCacheHit`	Die Anzahl der `InvokeEndpoint`-Anforderungen, die an den Multimodell-Endpunkt gesendet werden, für die das Modell bereits geladen wurde. Die Durchschnittsstatistik zeigt das Verhältnis der Anforderungen an, für die das Modell bereits geladen wurde. Einheiten: keine Gültige Statistiken: Durchschnitt, Datenstichprobe

Dimensionen für Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Dimension	Beschreibung
`EndpointName, VariantName`	Filtert die Kennzahlen für den Endpunktaufruf einer `ProductionVariant` für den angegebenen Endpunkt und die Variante.

Die /aws/sagemaker/Endpoints-Namespaces enthalten die folgenden Instance-Metriken aus Aufrufen an InvokeEndpoint.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Informationen darüber, wie lange CloudWatch Metriken aufbewahrt werden, finden Sie GetMetricStatisticsin der Amazon CloudWatch API-Referenz.

Kennzahlen für Modell-Instances von Multimodell-Endpunkten

Metrik	Beschreibung
`LoadedModelCount`	Die Anzahl der Modelle, die in die Container des Multimodell-Endpunkts geladen werden. Diese Metrik wird pro Instance ausgegeben. Die Durchschnittsstatistik mit einem Zeitraum von 1 Minute gibt Ihnen die durchschnittliche Anzahl der pro Instance geladenen Modelle an. Die Summenstatistik gibt Ihnen die Gesamtzahl der Modelle an, die über alle Instances im Endpunkt geladen wurden. Die Modelle, die von dieser Metrik verfolgt werden, sind nicht unbedingt eindeutig, da ein Modell möglicherweise in mehrere Container am Endpunkt geladen wird. Einheiten: keine Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`CPUUtilization`	Die Summe der Auslastung jedes einzelnen CPU-Kerns. Die CPU-Auslastung jedes Kernbereichs liegt zwischen 0 und 100. Wenn es beispielsweise vier gibt CPUs, liegt der `CPUUtilization` Bereich zwischen 0% und 400%. Bei Endpunktvarianten ist dieser Wert die Summe der CPU-Auslastung von primären und ergänzenden Containern auf der Instance. Einheiten: Prozent
`MemoryUtilization`	Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wertebereich liegt zwischen 0 und 100%. Bei Endpunktvarianten ist dieser Wert die Summe der Speichernutzung der primären und ergänzenden Container auf der Instance. Einheiten: Prozent
`DiskUtilization`	Der Prozentsatz des Speicherplatzes, der von den Containern auf einer Instance verwendet wird. Dieser Wertebereich liegt zwischen 0 und 100%. Bei Endpunktvarianten ist dieser Wert die Summe der Speicherplatzauslastung der primären und ergänzenden Container auf der Instance. Einheiten: Prozent

CloudWatch Metriken für GPU-Endpunktbereitstellungen mit mehreren Modellen

Auf GPU-gestützten Multimodell-Endpunkten können Sie die folgenden Kennzahlen überwachen.

Der AWS/SageMaker Namespace umfasst das folgende Modell zum Laden von Metriken aus Aufrufen von. InvokeEndpoint

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Informationen darüber, wie lange CloudWatch Metriken aufbewahrt werden, finden Sie GetMetricStatisticsin der Amazon CloudWatch API-Referenz.

Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Metrik	Beschreibung
`ModelLoadingWaitTime`	Der Zeitraum , über das hinweg eine Aufrufanforderung darauf gewartet hat, dass das Zielmodell heruntergeladen oder geladen wird, oder beides, um Interferenzen vorzunehmen. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelUnloadingTime`	Der Zeitraum , das zum Entladen des Modells über den `UnloadModel`-API-Aufruf des Containers erforderlich war. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelDownloadingTime`	Die Dauer, die es brauchte, das Modell von Amazon Simple Storage Service (Amazon S3) herunterzuladen. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelLoadingTime`	Der Zeitraum , das zum Laden des Modells über den `LoadModel`-API-Aufruf des Containers erforderlich war. Einheiten: Mikrosekunden Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`ModelCacheHit`	Die Anzahl der `InvokeEndpoint`-Anforderungen, die an den Multimodell-Endpunkt gesendet werden, für die das Modell bereits geladen wurde. Die Durchschnittsstatistik zeigt das Verhältnis der Anforderungen an, für die das Modell bereits geladen wurde. Einheiten: keine Gültige Statistiken: Durchschnitt, Datenstichprobe

Dimensionen für Kennzahlen zum Laden von Multimodell-Endpunktmodellen

Dimension	Beschreibung
`EndpointName, VariantName`	Filtert die Kennzahlen für den Endpunktaufruf einer `ProductionVariant` für den angegebenen Endpunkt und die Variante.

Die /aws/sagemaker/Endpoints-Namespaces enthalten die folgenden Instance-Metriken aus Aufrufen an InvokeEndpoint.

Die Kennzahlen sind mit einminütiger Frequenz verfügbar.

Informationen darüber, wie lange CloudWatch Metriken aufbewahrt werden, finden Sie GetMetricStatisticsin der Amazon CloudWatch API-Referenz.

Kennzahlen für Modell-Instances von Multimodell-Endpunkten

Metrik	Beschreibung
`LoadedModelCount`	Die Anzahl der Modelle, die in die Container des Multimodell-Endpunkts geladen werden. Diese Metrik wird pro Instance ausgegeben. Die Durchschnittsstatistik mit einem Zeitraum von 1 Minute gibt Ihnen die durchschnittliche Anzahl der pro Instance geladenen Modelle an. Die Summenstatistik gibt Ihnen die Gesamtzahl der Modelle an, die über alle Instances im Endpunkt geladen wurden. Die Modelle, die von dieser Metrik verfolgt werden, sind nicht unbedingt eindeutig, da ein Modell möglicherweise in mehrere Container am Endpunkt geladen wird. Einheiten: keine Gültige Statistiken: Durchschnitt, Minimum, Maximum, Stichprobenanzahl
`CPUUtilization`	Die Summe der Auslastung jedes einzelnen CPU-Kerns. Die CPU-Auslastung jedes Kernbereichs liegt zwischen 0 und 100. Wenn es beispielsweise vier gibt CPUs, liegt der `CPUUtilization` Bereich zwischen 0% und 400%. Bei Endpunktvarianten ist dieser Wert die Summe der CPU-Auslastung von primären und ergänzenden Containern auf der Instance. Einheiten: Prozent
`MemoryUtilization`	Der Prozentsatz des Speichers, der von den Containern auf einer Instance belegt wird. Dieser Wertebereich liegt zwischen 0 und 100%. Bei Endpunktvarianten ist dieser Wert die Summe der Speichernutzung der primären und ergänzenden Container auf der Instance. Einheiten: Prozent
`GPUUtilization`	Der Prozentsatz der GPU-Einheiten, die von den Containern auf einer Instance verwendet werden. Der Wert, der zwischen 0 und 100 liegen kann, wird mit der Anzahl von multipliziert. GPUs Wenn es beispielsweise vier gibt, liegt der `GPUUtilization` Bereich zwischen GPUs 0% und 400%. Bei Endpunktvarianten ist dieser Wert die Summe der GPU-Auslastung von primären und ergänzenden Containern auf der Instance. Einheiten: Prozent
`GPUMemoryUtilization`	Der Prozentsatz des GPU-Speichers, der von den Containern auf einer Instance belegt wird. Der Wertebereich ist 0‐100 und wird mit der Anzahl von multipliziert. GPUs Wenn es beispielsweise vier gibt, ist der `GPUMemoryUtilization` Bereich GPUs 0%‐400%. Bei Endpunktvarianten ist dieser Wert die Summe der GPU-Speichernutzung der primären und ergänzenden Container auf der Instance. Einheiten: Prozent
`DiskUtilization`	Der Prozentsatz des Speicherplatzes, der von den Containern auf einer Instance verwendet wird. Dieser Wertebereich liegt zwischen 0 und 100%. Bei Endpunktvarianten ist dieser Wert die Summe der Speicherplatzauslastung der primären und ergänzenden Container auf der Instance. Einheiten: Prozent

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Sicherheit

Legen Sie das Caching-Verhalten von SageMaker KI-Endpunktmodellen für mehrere Modelle fest