Referencia de métricas

Modo de enfoque

Referencia de métricas - Amazon SageMaker AI

Métricas para la predicción numérica Métricas para la predicción categórica Métricas para la predicción de imágenes y de texto Métricas para previsiones de series temporales

En las siguientes secciones se describen las métricas que están disponibles en Amazon SageMaker Canvas para cada tipo de modelo.

Métricas para la predicción numérica

En la siguiente lista se definen las métricas para la predicción numérica en SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se implementa el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensamblaje.
MEA: error absoluto medio. De media, la predicción para la columna de destino es +/- {MAE} respecto al valor real.

Mide la diferencia entre los valores pronosticados y reales cuando se promedian entre todos los valores. MAE se utiliza habitualmente en la predicción numérica para comprender el error de predicción del modelo. Si las predicciones son lineales, MAE representa la distancia media desde una línea predicha hasta el valor real. El MAE se define como la suma de los errores absolutos dividida por el número de observaciones. Los valores van desde 0 hasta el infinito, y los números más pequeños indican un mejor ajuste del modelo a los datos.
MAPE: error porcentual absoluto medio. De media, la predicción para la columna de destino es de +/- {MAPE} % del valor real.

MAPE es la media de las diferencias absolutas entre los valores reales y los valores pronosticados o estimados, dividida por los valores reales y expresada en porcentaje. Un valor de MAPE más bajo indica mejor rendimiento, ya que significa que los valores pronosticados o estimados se acercan más a los valores reales.
MSE: error cuadrático medio o media de las diferencias cuadráticas entre los valores pronosticados y reales.

Los valores de MSE son siempre positivos. Cuanto mejor prediga los valores reales un modelo, menor será el valor de MSE.
R2: el porcentaje de la diferencia en la columna de destino que se puede explicar mediante la columna de entrada.

Cuantifica en qué medida un modelo puede explicar la varianza de una variable dependiente. Los valores oscilan entre uno (1) y menos uno (-1). Los números más altos indican una fracción mayor de la variabilidad explicada. Los valores cercanos a cero (0) indican que el modelo puede explicar muy poco sobre la variable dependiente. Los valores negativos indican que hay un ajuste deficiente y que el rendimiento del modelo es superado por una función constante (o una línea horizontal).
RMSE: raíz del error cuadrático medio o desviación estándar de los errores.

Mide la raíz cuadrada de la diferencia cuadrática entre los valores pronosticados y los reales, y es la media de todos los valores. Se utiliza para comprender el error de predicción del modelo y es una métrica importante para indicar la presencia de valores atípicos y errores de modelo grandes. Los valores van desde cero (0) hasta infinito, y los números más pequeños indican el modelo que se ajusta mejor a los datos. RMSE depende de la escala y no debe usarse para comparar conjuntos de datos de diferentes tipos.

Métricas para la predicción categórica

En esta sección, se definen las métricas para la predicción categórica en SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

A continuación se ofrece una lista de las métricas disponibles para la predicción de 2 categorías.

Exactitud: la exactitud mide el porcentaje de predicciones correctas.

O la relación entre el número de elementos pronosticados correctamente y el número total de predicciones realizadas. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una exactitud perfecta y un 0 indica una inexactitud completa.
AUC: un valor entre 0 y 1 que indica en qué medida el modelo es capaz de separar las categorías del conjunto de datos. Un valor de 1 indica que fue capaz de separar las categorías a la perfección.
BalancedAccuracy — Mide la relación entre las predicciones precisas y todas las predicciones.

Esta relación se calcula después de normalizar los positivos verdaderos (TP) y los negativos verdaderos (TN) mediante el número total de valores positivos (P) y negativos (N). Se define de la siguiente manera: 0.5*((TP/P)+(TN/N)), con valores que van de 0 a 1. La métrica de exactitud equilibrada proporciona una medida mejor de la precisión cuando el número de positivos o negativos es muy diferente entre sí en un conjunto de datos desequilibrado; por ejemplo, cuando solo el 1 % del correo electrónico es no deseado.
F1: una medida equilibrada de precisión que tiene en cuenta el equilibrio de clases.

Es la media armónica de las puntuaciones de precisión y exhaustividad, definidas de la siguiente manera: F1 = 2 * (precision * recall) / (precision + recall). Las puntuaciones de F1 varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.
InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se despliega el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensamblaje.
LogLoss — La pérdida logarítmica, también conocida como pérdida de entropía cruzada, es una métrica que se utiliza para evaluar la calidad de las salidas probabilísticas, en lugar de las salidas en sí mismas. La pérdida logarítmica es una métrica importante para indicar, con una alta probabilidad, el momento en el que un modelo hace predicciones incorrectas. Los valores están comprendidos entre 0 e infinito. Un valor de 0 representa un modelo que predice perfectamente los datos.
Precisión: de todas las veces que se predijo {category x}, la predicción fue correcta el {precision} % de las veces.

La precisión mide el rendimiento de un algoritmo al predecir los verdaderos positivos (TP) de entre todos los positivos que identifica. Se define de la siguiente manera: Precision = TP/(TP+FP), con valores que van de cero (0) a uno (1). La precisión es una métrica importante cuando el coste de un falso positivo es elevado. Por ejemplo, el coste de un falso positivo es muy elevado si el sistema de seguridad de un avión se equivoca al decir que es seguro volar. Un falso positivo (FP) refleja una predicción positiva que, en realidad, es negativa en los datos.
Exhaustividad: el modelo predijo correctamente que {recall}% sería {category x} cuando {target_column} en realidad era {category x}.

La exhaustividad mide el rendimiento de un algoritmo a la hora de predecir correctamente todos los positivos verdaderos (TP) de un conjunto de datos. Un positivo verdadero es una predicción positiva que también es un valor positivo real en los datos. La exhaustividad se define de la siguiente manera: Recall = TP/(TP+FN), con valores que van de 0 a 1. Las puntuaciones más altas reflejan una mejor capacidad del modelo para predecir los verdaderos positivos (TP) en los datos. Tenga en cuenta que a menudo no basta con medir solo la exhaustividad, ya que, si se predice cada salida como un verdadero positivo, se obtiene una puntuación de exhaustividad perfecta.

A continuación se ofrece una lista de las métricas disponibles para la predicción de más de 3 categorías.

Exactitud: la exactitud mide el porcentaje de predicciones correctas.

O la relación entre el número de elementos pronosticados correctamente y el número total de predicciones realizadas. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una exactitud perfecta y un 0 indica una inexactitud completa.
BalancedAccuracy — Mide la relación entre las predicciones precisas y todas las predicciones.

Esta relación se calcula después de normalizar los positivos verdaderos (TP) y los negativos verdaderos (TN) mediante el número total de valores positivos (P) y negativos (N). Se define de la siguiente manera: 0.5*((TP/P)+(TN/N)), con valores que van de 0 a 1. La métrica de exactitud equilibrada proporciona una medida mejor de la precisión cuando el número de positivos o negativos es muy diferente entre sí en un conjunto de datos desequilibrado; por ejemplo, cuando solo el 1 % del correo electrónico es no deseado.
F1macro: la puntuación F1macro aplica la puntuación F1 calculando la precisión y la exhaustividad y, a continuación, aplicando la media armónica para calcular la puntuación de F1 de cada clase. A continuación, F1macro calcula la media de las puntuaciones individuales para obtener la puntuación F1macro. Las puntuaciones F1macro varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.
InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se despliega el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensamblaje.
LogLoss — La pérdida logarítmica, también conocida como pérdida de entropía cruzada, es una métrica que se utiliza para evaluar la calidad de las salidas probabilísticas, en lugar de las salidas en sí mismas. La pérdida logarítmica es una métrica importante para indicar, con una alta probabilidad, el momento en el que un modelo hace predicciones incorrectas. Los valores están comprendidos entre 0 e infinito. Un valor de 0 representa un modelo que predice perfectamente los datos.
PrecisionMacro — Mide la precisión calculando la precisión de cada clase y promediando las puntuaciones para obtener la precisión de varias clases. Las puntuaciones están comprendidas entre cero (0) y uno (1). Las puntuaciones más altas reflejan la capacidad del modelo para predecir positivos verdaderos (TP) a partir de todos los positivos que identifica, promediados en varias clases.
RecallMacro — Mide la memoria calculando la memoria de cada clase y promediando las puntuaciones para obtener la memoria de varias clases. Las puntuaciones están comprendidas entre 0 y 1. Las puntuaciones más altas reflejan la capacidad del modelo para predecir positivos verdaderos (TP) en un conjunto de datos, mientras que un resultado positivo verdadero refleja una predicción positiva que también es un valor positivo real en los datos. A menudo, no basta con medir solo la exhaustividad, ya que, si se predice cada salida como un verdadero positivo, se obtiene una puntuación de exhaustividad perfecta.

Tenga en cuenta que en las predicciones de 3 categorías o más, también recibe las métricas medias de F1, precisión, exactitud y exhaustividad. Las puntuaciones de estas métricas son solo la media de las puntuaciones de las métricas para todas las categorías.

Métricas para la predicción de imágenes y de texto

A continuación se ofrece una lista de las métricas disponibles para la predicción de imágenes y de texto.

Exactitud: la exactitud mide el porcentaje de predicciones correctas.

O la relación entre el número de elementos pronosticados correctamente y el número total de predicciones realizadas. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una exactitud perfecta y un 0 indica una inexactitud completa.
F1: una medida equilibrada de precisión que tiene en cuenta el equilibrio de clases.

Es la media armónica de las puntuaciones de precisión y exhaustividad, definidas de la siguiente manera: F1 = 2 * (precision * recall) / (precision + recall). Las puntuaciones de F1 varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.
Precisión: de todas las veces que se predijo {category x}, la predicción fue correcta el {precision} % de las veces.

La precisión mide el rendimiento de un algoritmo al predecir los verdaderos positivos (TP) de entre todos los positivos que identifica. Se define de la siguiente manera: Precision = TP/(TP+FP), con valores que van de cero (0) a uno (1). La precisión es una métrica importante cuando el coste de un falso positivo es elevado. Por ejemplo, el coste de un falso positivo es muy elevado si el sistema de seguridad de un avión se equivoca al decir que es seguro volar. Un falso positivo (FP) refleja una predicción positiva que, en realidad, es negativa en los datos.
Exhaustividad: el modelo predijo correctamente que {recall}% sería {category x} cuando {target_column} en realidad era {category x}.

La exhaustividad mide el rendimiento de un algoritmo a la hora de predecir correctamente todos los positivos verdaderos (TP) de un conjunto de datos. Un positivo verdadero es una predicción positiva que también es un valor positivo real en los datos. La exhaustividad se define de la siguiente manera: Recall = TP/(TP+FN), con valores que van de 0 a 1. Las puntuaciones más altas reflejan una mejor capacidad del modelo para predecir los verdaderos positivos (TP) en los datos. Tenga en cuenta que a menudo no basta con medir solo la exhaustividad, ya que, si se predice cada salida como un verdadero positivo, se obtiene una puntuación de exhaustividad perfecta.

Tenga en cuenta que, en el caso de los modelos de predicción de imágenes y texto en los que predice 3 o más categorías, también recibirá las métricas medias de F1, precisión, exactitud y exhaustividad. Las puntuaciones de estas métricas son solo la media de las puntuaciones de las métricas para todas las categorías.

Métricas para previsiones de series temporales

A continuación, se definen las métricas avanzadas para las previsiones de series temporales en Amazon SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

Pérdida de cuantil ponderada media (wQL): evalúa el pronóstico promediando la exactitud de los cuantiles P10, P50 y P90. Un valor más bajo indica un modelo más exacto.
Error porcentual absoluto ponderado (WAPE): suma del error absoluto normalizado por la suma del objetivo absoluto, que mide la desviación general de los valores pronosticados con respecto a los valores observados. Un valor más bajo indica un modelo más exacto, donde WAPE = 0 es un modelo sin errores.
Error cuadrático medio (RMSE): la raíz cuadrada del promedio de errores cuadráticos. Un RMSE más bajo indica un modelo más exacto, donde RMSE = 0 es un modelo sin errores.
Error porcentual absoluto medio (MAPE): el porcentaje de error (diferencia porcentual entre el valor medio previsto y el valor real) promediado en todos los puntos temporales. Un valor más bajo indica un modelo más exacto, donde MAPE = 0 es un modelo sin errores.
Error escalado absoluto medio (MASE): el error absoluto medio de la previsión normalizado mediante el error absoluto medio de un método de previsión de referencia simple. Un valor más bajo indica un modelo más preciso, en el que MASE <1 se considera mejor que la referencia y MASE >1 se considera peor que la referencia.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Visualización de los candidatos del modelo en la tabla de clasificación de modelos

Predicciones con modelos personalizados

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Referencia de métricas

Métricas para la predicción numérica

Métricas para la predicción categórica

Métricas para la predicción de imágenes y de texto

Métricas para previsiones de series temporales

En esta página

Related resources

¿Le ha servido de ayuda esta página?

Related resources

Tema siguiente:

Tema anterior:

¿Necesita ayuda?