Registros y métricas de canalización de inferencias - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Registros y métricas de canalización de inferencias

La supervisión es importante para mantener la fiabilidad, la disponibilidad y el rendimiento de SageMaker los recursos de Amazon. Para supervisar y solucionar problemas de rendimiento de la canalización de inferencias, utiliza CloudWatch los registros y mensajes de error de Amazon. Para obtener información sobre las herramientas de monitoreo que SageMaker proporciona, consulte. Herramientas para supervisar los AWS recursos aprovisionados mientras se utiliza Amazon SageMaker

Uso de métricas para monitorizar modelos de varios contenedores

Para supervisar los modelos de varios contenedores en Inference Pipelines, utilice Amazon. CloudWatch CloudWatchrecopila datos sin procesar y los procesa para convertirlos en métricas legibles y prácticamente en tiempo real. SageMakerlos trabajos de formación y los puntos finales escriben CloudWatch métricas y registros en el AWS/SageMaker espacio de nombres.

Las siguientes tablas muestran las métricas y dimensiones de los siguientes:

  • Invocaciones de punto de conexión

  • Trabajos de entrenamiento, trabajos de transformación por lotes e instancias de punto de conexión

Una dimensión es un par de nombre-valor que identifica una métrica de forma inequívoca. Puede asignar hasta 10 dimensiones a una métrica. Para obtener más información sobre la supervisión con CloudWatch, consulte. Métricas para monitorizar Amazon SageMaker con Amazon CloudWatch

Métricas de invocación de puntos de conexión

El espacio de nombres AWS/SageMaker incluye las siguientes métricas de respuesta desde llamadas en InvokeEndpoint .

Las métricas se notifican a intervalos de 1 minuto.

Métrica Descripción
Invocation4XXErrors

El número de InvokeEndpoint solicitudes para las que el modelo devolvió un código de 4xx HTTP respuesta. Para cada 4xx respuesta, SageMaker envía un1.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocation5XXErrors

El número de InvokeEndpoint solicitudes para las que el modelo devolvió un código de 5xx HTTP respuesta. Para cada 5xx respuesta, SageMaker envía un1.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocations

Las solicitudes de number of InvokeEndpoint enviadas a un punto de conexión del modelo.

Para obtener el número total de solicitudes enviadas a un punto de conexión del modelo, utilice la estadística Sum.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count

InvocationsPerInstance

El número de invocaciones de punto final enviadas a un modelo, normalizado InstanceCount en cada una. ProductionVariant SageMakerenvía 1/ numberOfInstances como valor para cada solicitud, donde numberOfInstances es el número de instancias activas ProductionVariant en el punto final en el momento de la solicitud.

Unidades: ninguna

Estadísticas válidas: Sum

ModelLatency El tiempo que el modelo o modelos tardan en responder. Esto incluye el tiempo necesario para enviar la solicitud, para obtener la respuesta del contenedor de modelos y para completar la inferencia en el contenedor. ModelLatency es el tiempo total que tardan todos los contenedores en una canalización de inferencia.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

OverheadLatency

El tiempo que se suma al tiempo empleado en responder a una solicitud de un cliente en concepto SageMaker de sobrecarga. OverheadLatencyse mide desde el momento en que se SageMaker recibe la solicitud hasta que devuelve una respuesta al cliente, menos elModelLatency. La latencia de sobrecargas puede variar en función de los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación o la autorización de la solicitud, entre otros factores.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

ContainerLatency El tiempo que tardó un contenedor de Inference Pipelines en responder visto desde. SageMaker ContainerLatencyincluye el tiempo que se tardó en enviar la solicitud, obtener la respuesta del contenedor del modelo y completar la inferencia en el contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count

Dimensiones de las métricas de invocación de puntos de conexión

Dimensión Descripción
EndpointName, VariantName, ContainerName

Filtra las métricas de invocación de punto de conexión para ProductionVariant en el punto de conexión especificado y para la variante especificada.

En el caso de un punto final de proceso de inferencia, CloudWatch enumera las métricas de latencia por contenedor de su cuenta como métricas de contenedores de punto final y métricas de variantes de punto final en el SageMakerespacio de nombres, de la siguiente manera. La métrica ContainerLatency solo aparece para canalizaciones de inferencias.

El CloudWatch panel de control de una canalización de inferencias.

Para cada punto de conexión y cada contenedor, las métricas de latencia muestran los nombres del contenedor, punto de conexión, variante y métrica.

Las métricas de latencia de un punto de conexión.

Métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Los espacios de nombres /aws/sagemaker/TrainingJobs, /aws/sagemaker/TransformJobs y /aws/sagemaker/Endpoints incluyen las siguientes métricas para los trabajos de entrenamiento y las instancias de punto de conexión.

Las métricas se notifican a intervalos de 1 minuto.

Métrica Descripción
CPUUtilization

El porcentaje de CPU unidades que utilizan los contenedores que se ejecutan en una instancia. El valor oscila entre el 0% y el 100% y se multiplica por el número deCPUs. Por ejemplo, si hay cuatroCPUs, CPUUtilization puede oscilar entre el 0% y el 400%.

Para los trabajos de entrenamiento, CPUUtilization es la CPU utilización del contenedor de algoritmos que se ejecuta en la instancia.

Para los trabajos de transformación por lotes, CPUUtilization es la CPU utilización del contenedor de transformación que se ejecuta en la instancia.

En el caso de los modelos con varios contenedores, CPUUtilization es la suma de la CPU utilización de todos los contenedores que se ejecutan en la instancia.

En el caso de las variantes de punto final, CPUUtilization es la suma de la CPU utilización de todos los contenedores que se ejecutan en la instancia.

Unidades: porcentaje

MemoryUtilization

El porcentaje de memoria que utilizan los contenedores que se ejecutan en una instancia. Este valor oscila entre 0 % y 100 %.

Para trabajos de entrenamiento, MemoryUtilization es la memoria utilizada por el contenedor de algoritmos que se ejecuta en la instancia.

Para trabajos de transformación por lotes, MemoryUtilization es la memoria utilizada por el contenedor de transformación que se ejecuta en la instancia.

Para modelos de varios contenedores, MemoryUtilization es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia.

Para variantes de punto de conexión, MemoryUtilization es la suma de memoria utilizada por todos los contenedores que se ejecutan en la instancia.

Unidades: porcentaje

GPUUtilization

El porcentaje de GPU unidades que utilizan los contenedores que se ejecutan en una instancia. GPUUtilizationoscila entre el 0% y el 100% y se multiplica por el número deGPUs. Por ejemplo, si hay cuatroGPUs, GPUUtilization puede oscilar entre el 0% y el 400%.

Para los trabajos de entrenamiento, GPUUtilization es el GPU utilizado por el contenedor de algoritmos que se ejecuta en la instancia.

Para los trabajos de transformación por lotes, GPUUtilization es el que GPU utiliza el contenedor de transformación que se ejecuta en la instancia.

En el caso de los modelos con varios contenedores, GPUUtilization es la suma de los contenedores GPU utilizados por todos los contenedores que se ejecutan en la instancia.

En el caso de las variantes de punto final, GPUUtilization es la suma de los contenedores GPU utilizados por todos los contenedores que se ejecutan en la instancia.

Unidades: porcentaje

GPUMemoryUtilization

El porcentaje de GPU memoria que utilizan los contenedores que se ejecutan en una instancia. GPUMemoryUtilizationoscila entre el 0% y el 100% y se multiplica por el número deGPUs. Por ejemplo, si hay cuatroGPUs, GPUMemoryUtilization puede oscilar entre el 0% y el 400%.

Para los trabajos de entrenamiento, GPUMemoryUtilization es la GPU memoria utilizada por el contenedor de algoritmos que se ejecuta en la instancia.

En el caso de los trabajos de transformación por lotes, GPUMemoryUtilization es la GPU memoria que utiliza el contenedor de transformación que se ejecuta en la instancia.

En el caso de los modelos con varios contenedores, GPUMemoryUtilization es la suma de los contenedores GPU utilizados por todos los contenedores que se ejecutan en la instancia.

En el caso de las variantes de punto final, GPUMemoryUtilization es la suma de la GPU memoria utilizada por todos los contenedores que se ejecutan en la instancia.

Unidades: porcentaje

DiskUtilization

El porcentaje de espacio en disco que utilizan los contenedores que se ejecutan en una instancia. DiskUtilization oscila entre el 0% y el 100%. Esta métrica no es compatible con los trabajos de transformación por lotes.

Para trabajos de entrenamiento, DiskUtilization es el espacio en disco utilizado por el contenedor de algoritmos que se ejecuta en la instancia.

Para variantes de punto de conexión, DiskUtilization es la suma de espacio en disco utilizado por todos los contenedores proporcionados que se ejecutan en la instancia.

Unidades: porcentaje

Dimensiones de métricas de instancias de punto de conexión, trabajo de transformación por lotes y trabajo de entrenamiento

Dimensión Descripción
Host

Para trabajos de entrenamiento, Host tiene el formato [training-job-name]/algo-[instance-number-in-cluster]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de entrenamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TrainingJobs.

Para trabajos de transformación por lotes, Host tiene el formato [transform-job-name]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de transformación por lotes especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TransformJobs.

Para los puntos de conexión, Host tiene el formato [endpoint-name]/[ production-variant-name ]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia, la variante y el punto de conexión especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/Endpoints.

Para ayudarte a depurar tus trabajos de formación, los puntos finales y las configuraciones del ciclo de vida de las instancias de notebook, SageMaker también envía todo lo que un contenedor de algoritmos, un contenedor de modelos o una configuración del ciclo de vida de una instancia de cuaderno envíe a stdout stderr Amazon CloudWatch Logs. Puede utilizar esta información para depuración y para analizar el progreso.

Uso de registros para monitorizar una canalización de inferencia

La siguiente tabla muestra los grupos de registros y las secuencias de registros SageMaker. Envía a Amazon CloudWatch

Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros CloudWatch constituye un flujo de registro independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.

Registros

Nombre del grupo de registro Nombre del flujo de registro
/aws/sagemaker/TrainingJobs

[training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp]

/aws/sagemaker/Endpoints/[EndpointName]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]

[production-variant-name]/[instance-id]/[container-name provided in the SageMaker model] (For Inference Pipelines)Para los registros de Inference Pipelines, si no proporciona los nombres de los contenedores, CloudWatch utilice **contenedor-1, contenedor-2**, etc., en el orden en que se proporcionan los contenedores en el modelo.

/aws/sagemaker/NotebookInstances

[notebook-instance-name]/[LifecycleConfigHook]

/aws/sagemaker/TransformJobs

[transform-job-name]/[instance-id]-[epoch_timestamp]

[transform-job-name]/[instance-id]-[epoch_timestamp]/data-log

[transform-job-name]/[instance-id]-[epoch_timestamp]/[container-name provided in the SageMaker model] (For Inference Pipelines)En el caso de los registros de Inference Pipelines, si no proporciona los nombres de los contenedores, CloudWatch utiliza **contenedor-1, contenedor-2**, etc., en el orden en que se proporcionan los contenedores en el modelo.

nota

SageMakercrea el grupo de /aws/sagemaker/NotebookInstances registros al crear una instancia de notebook con una configuración de ciclo de vida. Para obtener más información, consulte Personalización de una instancia de SageMaker bloc de notas mediante un LCC script.

Para obtener más información sobre el SageMaker registro, consulteRegistra los grupos y las transmisiones que Amazon SageMaker envía a Amazon CloudWatch Logs.