Métricas para monitorizar Amazon SageMaker con Amazon CloudWatch - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Métricas para monitorizar Amazon SageMaker con Amazon CloudWatch

Puedes monitorear Amazon SageMaker con Amazon CloudWatch, que recopila datos sin procesar y los procesa para convertirlos en métricas legibles y casi en tiempo real. Estas estadísticas se conservan durante 15 meses. Con ellas, puede acceder a la información histórica y obtener una mejor perspectiva del rendimiento de su aplicación o servicio web. Sin embargo, la CloudWatch consola de Amazon limita la búsqueda a las métricas que se hayan actualizado en las últimas 2 semanas. Esta limitación garantiza que la mayor parte de los trabajos actuales se muestren en su espacio de nombres.

Para representar métricas gráficamente sin usar una búsqueda, especifique su nombre exacto en la vista del código fuente. También puede establecer alarmas que vigilen determinados umbrales y enviar notificaciones o realizar acciones cuando se cumplan dichos umbrales. Para obtener más información, consulta la Guía del CloudWatch usuario de Amazon.

SageMaker métricas de invocación de puntos finales

El espacio de AWS/SageMaker nombres incluye las siguientes métricas de solicitudes de llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

La siguiente ilustración muestra cómo interactúa un SageMaker punto final con Amazon SageMaker RuntimeAPI. El tiempo total entre el envío de una solicitud a un punto de conexión y la recepción de una respuesta depende de los tres componentes siguientes.

  • Latencia de red: el tiempo que transcurre entre la presentación de una solicitud y la recepción de una respuesta desde el SageMaker Runtime RuntimeAPI.

  • Latencia de sobrecarga: el tiempo que se tarda en transportar una solicitud al contenedor del modelo desde el Runtime Runtime y en transportar la respuesta de vuelta al SageMaker entorno de ejecuciónAPI.

  • Latencia del modelo: el tiempo que tarda el contenedor de modelos en procesar la solicitud y devolver una respuesta.

Una ilustración que muestra que la latencia total es la suma de las latencias de red, sobrecarga y modelo.

Para obtener más información sobre la latencia total, consulte Prácticas recomendadas para realizar pruebas de carga en los puntos finales de inferencia SageMaker en tiempo real de Amazon. Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de invocación de puntos de conexión

Métrica Descripción
ConcurrentRequestsPerCopy

El número de solicitudes simultáneas que recibe el componente de inferencia, normalizado por cada copia de un componente de inferencia.

Estadísticas válidas: mínimo, máximo

ConcurrentRequestsPerModel

El número de solicitudes simultáneas que recibe el modelo.

Estadísticas válidas: mínimo, máximo

Invocation4XXErrors

El número de InvokeEndpoint solicitudes en las que el modelo devolvió un código de HTTP respuesta 4xx. Para cada respuesta 4xx, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocation5XXErrors

El número de InvokeEndpoint solicitudes en las que el modelo devolvió un código de HTTP respuesta de 5xx. Para cada respuesta 5xx, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

InvocationModelErrors

El número de solicitudes de invocación del modelo que no dieron como resultado una respuesta de HTTP 2XX. Esto incluye códigos de estado 4XX/5XX, errores de socket de bajo nivel, respuestas mal formateadas y tiempos de espera de solicitudes. HTTP Para cada respuesta de error, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Invocations

El número de solicitudes de InvokeEndpoint enviadas a un punto de conexión del modelo.

Para obtener el número total de solicitudes enviadas a un punto de enlace del modelo, utilice la estadística Sum.

Unidades: ninguna

Estadísticas válidas: suma

InvocationsPerCopy

El número de invocaciones normalizadas por cada copia de un componente de inferencia.

Estadísticas válidas: suma

InvocationsPerInstance

El número de invocaciones enviadas a un modelo, normalizado como InstanceCount en cada una ProductionVariant. 1/ numberOfInstances se envía como el valor de cada solicitud. numberOfInstanceses el número de instancias activas de la parte ProductionVariant trasera del punto final en el momento de la solicitud.

Unidades: ninguna

Estadísticas válidas: suma

ModelLatency

El intervalo de tiempo que tarda un modelo en responder a una API solicitud SageMaker de tiempo de ejecución. Este intervalo incluye los tiempos de comunicación local necesarios para enviar la solicitud y obtener la respuesta del contenedor del modelo. También incluye el tiempo necesario para completar la inferencia en el contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelSetupTime

El tiempo que se tarda en lanzar nuevos recursos de computación para un punto de conexión sin servidor. El tiempo puede variar según el tamaño del modelo, el tiempo que se tarde en descargarlo y el tiempo de arranque del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Min, Max, Sample Count, Percentiles.

OverheadLatency

El intervalo de tiempo que se suma al tiempo necesario para responder a una solicitud de un cliente debido a los gastos SageMaker generales. Este intervalo se mide desde el momento en que se SageMaker recibe la solicitud hasta que devuelve una respuesta al cliente, menos elModelLatency. La latencia de sobrecarga puede variar dependiendo de varios factores, incluidos los tamaños de carga de solicitud y respuesta, la frecuencia de solicitud y la autenticación/autorización de la solicitud.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

Dimensiones de las métricas de invocación de puntos de conexión

Dimensión Descripción
EndpointName, VariantName

Filtra las métricas de invocación de punto de conexión para una ProductionVariant del punto de conexión y la variante especificados.

InferenceComponentName

Filtra las métricas de invocación de los componentes de inferencia.

SageMaker métricas de componentes de inferencia

El espacio de /aws/sagemaker/InferenceComponents nombres incluye las siguientes métricas de las llamadas a los puntos finales que alojan InvokeEndpointlos componentes de inferencia.

Las métricas están disponibles con una frecuencia de un minuto.

Métrica Descripción
CPUUtilizationNormalized

El valor de la CPUUtilizationNormalized métrica que informa cada copia del componente de inferencia. El valor oscila entre el 0% y el 100%. Si establece el NumberOfCpuCoresRequired parámetro en la configuración de la copia del componente de inferencia, la métrica presenta la utilización con respecto a la reserva. De lo contrario, la métrica presenta la utilización por encima del límite.

GPUMemoryUtilizationNormalized

El valor de la GPUMemoryUtilizationNormalized métrica indicado por cada copia del componente de inferencia.

GPUUtilizationNormalized

El valor de la GPUUtilizationNormalized métrica indicado por cada copia del componente de inferencia. Si establece el NumberOfAcceleratorDevicesRequired parámetro en la configuración de la copia del componente de inferencia, la métrica presenta la utilización por encima de la reserva. De lo contrario, la métrica presenta la utilización por encima del límite.

MemoryUtilizationNormalized

El valor MemoryUtilizationNormalized indicado por cada copia del componente de inferencia. Si establece el MinMemoryRequiredInMb parámetro en la configuración de la copia del componente de inferencia, las métricas muestran la utilización por encima de la reserva. De lo contrario, las métricas muestran la utilización por encima del límite.

Dimensiones de las métricas de los componentes de inferencia

Dimensión Descripción
InferenceComponentName

Filtra las métricas de los componentes de inferencia.

SageMaker métricas de puntos finales multimodelo

El espacio de AWS/SageMaker nombres incluye el siguiente modelo de métricas de carga de las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de carga de modelo de punto de conexión multimodelo

Métrica Descripción
ModelLoadingWaitTime

El intervalo de tiempo que una solicitud de invocación ha esperado a que el modelo de destino se descargue, cargue o ambas cosas para poder realizar una inferencia.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelUnloadingTime

El intervalo de tiempo que se tardó en descargar el modelo durante la llamada al contenedor. UnloadModel API

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelDownloadingTime

El intervalo de tiempo que se tardó en descargar el modelo de Amazon Simple Storage Service (Amazon S3).

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelLoadingTime

El intervalo de tiempo que se tardó en cargar el modelo durante la LoadModel API llamada del contenedor.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

ModelCacheHit

El número de solicitudes InvokeEndpoint enviadas al punto de conexión multimodelo para el que ya se ha cargado el modelo.

La estadística Promedio muestra la proporción de solicitudes para las que el modelo ya se ha cargado.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Sample Count.

Dimensiones para métricas de carga de modelo de punto de conexión multimodelo

Dimensión Descripción
EndpointName, VariantName

Filtra las métricas de invocación de punto de conexión para una ProductionVariant del punto de conexión y la variante especificados.

Los /aws/sagemaker/Endpoints espacios de nombres incluyen las siguientes métricas de instancia correspondientes a las llamadas a. InvokeEndpoint

Las métricas están disponibles con una frecuencia de un minuto.

Para obtener información sobre cuánto tiempo se conservan CloudWatch las métricas, consulta GetMetricStatisticsla Amazon CloudWatch API Reference.

Métricas de instancia de modelo de punto de conexión multimodelo

Métrica Descripción
LoadedModelCount

El número de modelos cargados en los contenedores del punto de conexión multimodelo. Esta métrica se emite por instancia.

La estadística Promedio con un período de 1 minuto indica el número medio de modelos cargados por instancia.

La estadística Suma indica el número total de modelos cargados en todas las instancias del punto de conexión.

Los modelos de los que realiza el seguimiento de esta métrica no son necesariamente únicos porque un modelo puede cargarse en varios contenedores en el punto de conexión.

Unidades: ninguna

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

Dimensiones para métricas de carga de modelo de punto de conexión multimodelo

Dimensión Descripción
EndpointName, VariantName

Filtra las métricas de invocación de punto de conexión para una ProductionVariant del punto de conexión y la variante especificados.

SageMaker métricas de puestos de trabajo y puntos finales

Los /aws/sagemaker/Endpoints espacios de nombres /aws/sagemaker/ProcessingJobs /aws/sagemaker/TrainingJobs/aws/sagemaker/TransformJobs,, y incluyen las siguientes métricas para capacitar a los trabajos y las instancias de puntos finales.

Las métricas están disponibles con una frecuencia de un minuto.

nota

Amazon CloudWatch admite métricas personalizadas de alta resolución y su mejor resolución es de 1 segundo. Sin embargo, cuanto más fina sea la resolución, menor será la vida útil de las CloudWatch métricas. Para la resolución de frecuencia de 1 segundo, las CloudWatch métricas están disponibles durante 3 horas. Para obtener más información sobre la resolución y la duración de las CloudWatch métricas, consulta GetMetricStatisticsAmazon CloudWatch API Reference.

sugerencia

Para perfilar su trabajo de formación con una resolución más precisa, con una granularidad de hasta 100 milisegundos (0,1 segundos) y almacenar las métricas de formación de forma indefinida en Amazon S3 para su análisis personalizado en cualquier momento, considere la posibilidad de utilizar Amazon Debugger. SageMaker SageMaker Debugger incluye reglas integradas para detectar automáticamente los problemas de entrenamiento más comunes. Detecta problemas de utilización de los recursos de hardware (comoCPU, por ejemploGPU, cuellos de botella de E/S). También detecta problemas de modelos no convergentes (como el sobreajuste, la desaparición de los gradientes y la explosión de los tensores). SageMaker Debugger también proporciona visualizaciones a través de Studio Classic y su informe de creación de perfiles. Para explorar las visualizaciones del depurador, consulte el tutorial del panel de control de SageMaker Debugger Insights, el tutorial del informe de creación de perfiles del depurador y el análisis de datos mediante la biblioteca de clientes. SMDebug

Processing Job, Training Job, Batch Transform Job, and Endpoint Instance Metrics (Trabajo de procesamiento, trabajo de entrenamiento, trabajo de transformación por lotes y métricas de instancia de punto de enlace)

Métrica Descripción
CPUReservation

La suma de las reservas por contenedor en una CPUs instancia. El valor oscila entre el 0% y el 100%. En la configuración de un componente de inferencia, se establece la CPU reserva con el NumberOfCpuCoresRequired parámetro. Por ejemplo, si hay 4 CPUs y 2 reservados, la CPUReservation métrica es del 50%.

CPUUtilization La suma de la utilización de cada CPU núcleo individual. La CPU utilización de cada rango de núcleos es de 0 a 100. Por ejemplo, si hay cuatroCPUs, el CPUUtilization rango es del 0% al 400%. Para los trabajos de procesamiento, el valor es la CPU utilización del contenedor de procesamiento en la instancia.

Para los trabajos de entrenamiento, el valor es la CPU utilización del contenedor de algoritmos en la instancia.

Para los trabajos de transformación por lotes, el valor es la CPU utilización del contenedor de transformación en la instancia.

En el caso de las variantes de punto final, el valor es la suma de la CPU utilización de los contenedores principal y complementario de la instancia.

nota

En el caso de los trabajos de varias instancias, cada instancia informa de las métricas CPU de uso. Sin embargo, la vista predeterminada CloudWatch muestra la CPU utilización media en todas las instancias.

Unidades: porcentaje

CPUUtilizationNormalized

La suma normalizada de la utilización de cada CPU núcleo individual. El valor oscila entre el 0% y el 100%. Por ejemplo, si hay cuatro CPUs y la CPUUtilization métrica es del 200%, entonces la CPUUtilizationNormalized métrica es del 50%.

DiskUtilization

El porcentaje de espacio en disco usado por los contenedores en una instancia. Este valor oscila del 0 % al 100 %. Esta métrica no es compatible con los trabajos de transformación por lotes.

Para trabajos de procesamiento, el valor es la utilización del espacio en disco del contenedor de procesamiento en la instancia.

Para los trabajos de capacitación, el valor es la utilización del espacio en disco del contenedor de algoritmos en la instancia.

Para las variantes de punto de conexión, el valor es la suma de la utilización del espacio en disco de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje

nota

En el caso de trabajos de varias instancias, cada instancia notifica las métricas de utilización del disco. Sin embargo, la vista predeterminada CloudWatch muestra el uso promedio del disco en todas las instancias.

GPUMemoryUtilization

El porcentaje de GPU memoria que utilizan los contenedores de una instancia. El rango de valores es de 0 a 100 y se multiplica por el número de. GPUs Por ejemplo, si hay cuatroGPUs, el GPUMemoryUtilization rango es del 0% al 400%.

Para los trabajos de procesamiento, el valor es la utilización de GPU memoria del contenedor de procesamiento de la instancia.

Para los trabajos de entrenamiento, el valor es la utilización de GPU memoria del contenedor de algoritmos de la instancia.

En el caso de los trabajos de transformación por lotes, el valor es la utilización de GPU memoria del contenedor de transformación en la instancia.

Para las variantes de punto final, el valor es la suma de la utilización de GPU memoria de los contenedores principal y suplementario de la instancia.

nota

En el caso de los trabajos de varias instancias, cada instancia informa de las métricas de uso de la GPU memoria. Sin embargo, la vista predeterminada CloudWatch muestra el uso promedio de la GPU memoria en todas las instancias.

Unidades: porcentaje

GPUMemoryUtilizationNormalized

El porcentaje normalizado de GPU memoria que utilizan los contenedores de una instancia. El valor oscila entre el 0% y el 100%. Por ejemplo, si hay cuatro GPUs y la GPUMemoryUtilization métrica es del 200%, entonces la GPUMemoryUtilizationNormalized métrica es del 50%.

GPUReservation

La suma de las GPUs reservas por contenedor en una instancia. El valor oscila entre el 0% y el 100%. En la configuración de un componente de inferencia, se establece la GPU reserva porNumberOfAcceleratorDevicesRequired. Por ejemplo, si hay 4 GPUs y 2 están reservados, la GPUReservation métrica es del 50%.

GPUUtilization

El porcentaje de GPU unidades que utilizan los contenedores de una instancia. El valor puede oscilar entre 0 y 100 y se multiplica por el número de. GPUs Por ejemplo, si hay cuatroGPUs, el GPUUtilization rango es del 0% al 400%.

Para los trabajos de procesamiento, el valor es la GPU utilización del contenedor de procesamiento en la instancia.

Para los trabajos de entrenamiento, el valor es la GPU utilización del contenedor de algoritmos en la instancia.

Para los trabajos de transformación por lotes, el valor es la GPU utilización del contenedor de transformación en la instancia.

En el caso de las variantes de punto final, el valor es la suma de la GPU utilización de los contenedores principal y complementario de la instancia.

nota

En el caso de los trabajos de varias instancias, cada instancia informa de las métricas GPU de uso. Sin embargo, la vista predeterminada CloudWatch muestra la GPU utilización media en todas las instancias.

Unidades: porcentaje

GPUUtilizationNormalized

El porcentaje normalizado de GPU unidades que utilizan los contenedores de una instancia. El valor oscila entre el 0% y el 100%. Por ejemplo, si hay cuatro GPUs y la GPUUtilization métrica es del 200%, entonces la GPUUtilizationNormalized métrica es del 50%.

MemoryReservation

La suma de memoria reservada por los contenedores de una instancia. El valor oscila entre el 0% y el 100%. En la configuración de un componente de inferencia, se establece la reserva de memoria con el MinMemoryRequiredInMb parámetro. Por ejemplo, si una instancia de 32 GiB reservó 1024 MB, la MemoryReservation métrica es del 29,8%.

MemoryUtilization

El porcentaje de memoria que utilizan los contenedores en una instancia. Este valor oscila del 0 % al 100 %.

Para trabajos de procesamiento, el valor es la utilización de memoria del contenedor de procesamiento en la instancia.

Para los trabajos de capacitación, el valor es la utilización de la memoria del contenedor de algoritmos en la instancia.

Para los trabajos de transformación por lotes, el valor es la utilización de la memoria del contenedor de transformación en la instancia.

Para las variantes de punto de conexión, el valor es la suma de la utilización de la memoria de los contenedores principales y suplementarios en la instancia.

Unidades: porcentaje

nota

En el caso de trabajos de varias instancias, cada instancia notifica las métricas de utilización de la memoria. Sin embargo, la vista predeterminada de CloudWatch muestra el uso promedio de memoria en todas las instancias.

Dimensions for Processing Job, Training Job, Batch Transform Job, and Endpoint Instance Metrics (Dimensiones para trabajo de procesamiento, trabajo de entrenamiento, trabajo de transformación por lotes y métricas de instancia de punto de enlace)

Dimensión Descripción
Host

Para trabajos de procesamiento, el valor para esta dimensión tiene el formato [processing-job-name]/algo-[instance-number-in-cluster]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de procesamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/ProcessingJobs.

Para trabajos de capacitación, el valor para esta dimensión tiene el formato [training-job-name]/algo-[instance-number-in-cluster]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de entrenamiento especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TrainingJobs.

Para trabajos de transformación por lotes, el valor para esta dimensión tiene el formato [transform-job-name]/[instance-id]. Utilice esta dimensión para filtrar métricas de instancias para la instancia y el trabajo de transformación por lotes especificados. Este formato de dimensión está solo presente en el espacio de nombres /aws/sagemaker/TransformJobs.

SageMaker Métricas de trabajos de Inference Recommender

El espacio de nombres /aws/sagemaker/InferenceRecommendationsJobs contiene las siguientes métricas para los trabajos de recomendación de inferencias.

Métricas del recomendador de inferencias

Métrica Descripción
ClientInvocations

El número de solicitudes InvokeEndpoint enviadas al punto de conexión del modelo, según lo observado por el recomendador de inferencias.

Unidades: ninguna

Estadísticas válidas: suma

ClientInvocationErrors

El número de solicitudes InvokeEndpoint enviadas al punto de conexión del modelo que no han dado resultado, según lo observado por el recomendador de inferencias.

Unidades: ninguna

Estadísticas válidas: suma

ClientLatency

El intervalo de tiempo transcurrido entre el envío de una llamada InvokeEndpoint y la recepción de una respuesta, según lo observado por el recomendador de inferencias. Tenga en cuenta que el tiempo se expresa en milisegundos, mientras que la métrica de invocación del punto de conexión ModelLatency se expresa en microsegundos.

Unidades: milisegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count, Percentiles.

NumberOfUsers

El número de usuarios simultáneos que envían InvokeEndpoint solicitudes al punto de conexión del modelo.

Unidades: ninguna

Estadísticas válidas: Max, Min, Average.

Dimensiones de las métricas de trabajo del recomendador de inferencias

Dimensión Descripción
JobName

Filtra las métricas de trabajo del recomendador de inferencias para el trabajo de recomendador de inferencias especificado.

EndpointName

Filtra las métricas de trabajo del recomendador de inferencias para el punto de conexión especificado.

SageMaker Métricas de Ground Truth

Métricas de Ground Truth

Métrica Descripción
ActiveWorkers

Un solo trabajador activo de un equipo de trabajo privado presentó, lanzó o rechazó una tarea. Para obtener el número total de trabajadores activos, use la estadística Sum. Ground Truth intenta ofrecer cada ActiveWorkers evento individual una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre el número total de trabajadores activos.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

DatasetObjectsAutoAnnotated

El número de objetos de conjunto de datos comentados automáticamente en un trabajo de etiquetado. Esta métrica solo se emite al habilitarse el etiquetado automatizado. Para ver el progreso del trabajo de etiquetado, use la métrica Max.

Unidades: ninguna

Estadísticas válidas: Max

DatasetObjectsHumanAnnotated

El número de objetos de conjunto de datos comentados por un humano en un trabajo de etiquetado. Para ver el progreso del trabajo de etiquetado, use la métrica Max.

Unidades: ninguna

Estadísticas válidas: Max

DatasetObjectsLabelingFailed

El número de objetos de conjunto de datos que no se pudieron etiquetar en un trabajo de etiquetado. Para ver el progreso del trabajo de etiquetado, use la métrica Max.

Unidades: ninguna

Estadísticas válidas: Max

JobsFailed

Error en un solo trabajo de etiquetado. Para obtener el número total de trabajos de etiquetado que generaron error, use la estadística Sum.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

JobsSucceeded

Se ha realizado correctamente un solo trabajo de etiquetado. Para obtener el número total de trabajos de etiquetado que se realizaron correctamente, use la estadística Sum.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

JobsStopped

Se detuvo un solo trabajo de etiquetado. Para obtener el número total de trabajos de etiquetado que se detuvieron, use la estadística Sum.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

TasksAccepted

Un trabajador aceptó una sola tarea. Para obtener el número total de tareas aceptadas por los trabajadores, use la estadística Sum. Ground Truth intenta entregar cada evento individual TaskAccepted una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre el número total de tareas aceptadas.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

TasksDeclined

Un trabajador rechazó una sola tarea. Para obtener el número total de tareas rechazadas por los trabajadores, use la estadística Sum. Ground Truth intenta entregar cada evento individual TasksDeclined una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre el número total de tareas rechazadas.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

TasksReturned

Se devolvió una sola tarea. Para obtener el número total de tareas devueltas, use la estadística Sum. Ground Truth intenta entregar cada evento individual TasksReturned una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre el número total de tareas devueltas.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

TasksSubmitted

Un trabajador privado envió o completó una sola tarea. Para obtener el número total de tareas enviadas por los trabajadores, use la estadística Sum. Ground Truth intenta entregar cada evento individual TasksSubmitted una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre el número total de tareas enviadas.

Unidades: ninguna

Estadísticas válidas: Sum, Sample Count.

TimeSpent

Tiempo empleado en una tarea completada por un trabajador privado. Esta métrica no incluye el tiempo en que un trabajador hizo una pausa o se tomó un descanso. Ground Truth intenta entregar cada evento TimeSpent una vez. Si esta entrega no se realiza correctamente, es posible que esta métrica no muestre la cantidad total de tiempo empleado.

Unidades: segundos

Estadísticas válidas: Sum, Sample Count.

TotalDatasetObjectsLabeled

El número de objetos de conjunto de datos correctamente etiquetados en un trabajo de etiquetado. Para ver el progreso del trabajo de etiquetado, use la métrica Max.

Unidades: ninguna

Estadísticas válidas: Max

Dimensions for Dataset Object Metrics (Dimensiones de métricas de objeto de conjunto de datos)

Dimensión Descripción
LabelingJobName

Filtra métricas de recuento de objetos de conjunto de datos para un trabajo de etiquetado.

Estadísticas de Amazon SageMaker Feature Store

Métricas de consumo del almacén de características

Métrica Descripción
ConsumedReadRequestsUnits

El número de unidades de lectura consumidas durante el periodo de tiempo especificado. Puede recuperar las unidades de lectura consumidas para una operación de tiempo de ejecución del almacén de características y su grupo de características correspondiente.

Unidades: ninguna

Estadísticas válidas: todas.

ConsumedWriteRequestsUnits

El número de unidades de escritura consumidas durante el periodo de tiempo especificado. Puede recuperar las unidades de escritura consumidas para una operación de tiempo de ejecución del almacén de características y su grupo de características correspondiente.

Unidades: ninguna

Estadísticas válidas: todas.

ConsumedReadCapacityUnits

El número de unidades de capacidad de lectura aprovisionadas consumidas durante el período de tiempo especificado. Puede recuperar las unidades de capacidad de lectura consumidas para una operación de tiempo de ejecución de feature store y su grupo de funciones correspondiente.

Unidades: ninguna

Estadísticas válidas: todas.

ConsumedWriteCapacityUnits

El número de unidades de capacidad de escritura aprovisionadas consumidas durante el período de tiempo especificado. Puede recuperar las unidades de capacidad de escritura consumidas para una operación de tiempo de ejecución de feature store y su grupo de funciones correspondiente.

Unidades: ninguna

Estadísticas válidas: todas.

Dimensiones de las métricas de consumo del almacén de características

Dimensión Descripción
FeatureGroupName, OperationName

Filtra las métricas de consumo de tiempo de ejecución del almacén de características del grupo de características y la operación que ha especificado.

Métricas operativas del almacén de características

Métrica Descripción
Invocations

El número de solicitudes realizadas a las operaciones de tiempo de ejecución del almacén de características durante el periodo especificado.

Unidades: ninguna

Estadísticas válidas: suma

Operation4XXErrors

El número de solicitudes realizadas a las operaciones de tiempo de ejecución del Feature Store en las que la operación devolvió un código de HTTP respuesta 4xx. Por cada respuesta de 4xx, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Operation5XXErrors

El número de solicitudes realizadas a las operaciones de tiempo de ejecución del feature store en las que la operación devolvió un código de HTTP respuesta de 5xx. Por cada 5xx respuestas, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

ThrottledRequests

El número de solicitudes realizadas a las operaciones de tiempo de ejecución del almacén de características en las que se ha limitado la solicitud. Por cada solicitud restringida, se envía 1; de lo contrario, se envía 0.

Unidades: ninguna

Estadísticas válidas: Average, Sum

Latency

El intervalo de tiempo para procesar las solicitudes realizadas a las operaciones de tiempo de ejecución del almacén de características. Este intervalo se mide desde el momento en que se SageMaker recibe la solicitud hasta que devuelve una respuesta al cliente.

Unidades: microsegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count, Percentiles.

Dimensiones de las métricas operativas del almacén de características

Dimensión Descripción

FeatureGroupName, OperationName

Filtra las métricas operativas de tiempo de ejecución del almacén de características del grupo de características y la operación que ha especificado. Puede utilizar estas dimensiones para operaciones que no sean por lotes GetRecord, como PutRecord, y DeleteRecord.
OperationName

Filtra las métricas operativas de tiempo de ejecución del almacén de características para la operación que ha especificado. Puede utilizar esta dimensión para operaciones por lotes como BatchGetRecord.

SageMaker tuberías, métricas

El espacio de nombres AWS/Sagemaker/ModelBuildingPipeline contiene las siguientes métricas para las ejecuciones de canalizaciones.

Hay dos categorías de métricas de ejecución de canalizaciones disponibles:

  • Métricas de ejecución en todas las canalizaciones: métricas de ejecución de la canalización a nivel de cuenta (para todas las canalizaciones de la cuenta actual).

  • Métricas de ejecución por canalización: métricas de ejecución de la canalización por canalización.

Las métricas están disponibles con una frecuencia de un minuto.

Métricas de ejecución de las canalizaciones

Métrica Descripción
ExecutionStarted

El número de ejecuciones de la canalización que se iniciaron.

Unidades: recuento

Estadísticas válidas: Average, Sum

ExecutionFailed

El número de ejecuciones de la canalización que produjeron un error.

Unidades: recuento

Estadísticas válidas: Average, Sum

ExecutionSucceeded

El número de ejecuciones de la canalización que se realizaron correctamente.

Unidades: recuento

Estadísticas válidas: Average, Sum

ExecutionStopped

El número de ejecuciones de la canalización que se detuvieron.

Unidades: recuento

Estadísticas válidas: Average, Sum

ExecutionDuration

La duración en milisegundos de la ejecución de la canalización.

Unidades: milisegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

Dimensiones de las métricas de ejecución por canalización

Dimensión Descripción
PipelineName

Filtra las métricas de ejecución por canalización específica.

Métricas de los pasos de las canalizaciones

El espacio de nombres AWS/Sagemaker/ModelBuildingPipeline contiene las siguientes métricas para los pasos de la canalización.

Las métricas están disponibles con una frecuencia de un minuto.

Métrica Descripción
StepStarted

Número de pasos que se iniciaron.

Unidades: recuento

Estadísticas válidas: Average, Sum

StepFailed

Número de pasos que produjeron un error.

Unidades: recuento

Estadísticas válidas: Average, Sum

StepSucceeded

Número de pasos que se realizaron correctamente.

Unidades: recuento

Estadísticas válidas: Average, Sum

StepStopped

Número de pasos que se detuvieron.

Unidades: recuento

Estadísticas válidas: Average, Sum

StepDuration

La duración en milisegundos de la ejecución del paso.

Unidades: milisegundos

Estadísticas válidas: Average, Sum, Min, Max, Sample Count.

Dimensiones de las métricas de los pasos de las canalizaciones

Dimensión Descripción
PipelineName, StepName

Filtra las métricas de pasos de una canalización y un paso específicos.