Referencia de métricas - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Referencia de métricas

En las siguientes secciones se describen las métricas que están disponibles en Amazon SageMaker Canvas para cada tipo de modelo.

Métricas para la predicción numérica

En la siguiente lista se definen las métricas para la predicción numérica en SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

  • InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se implementa el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensambling.

  • MAE— Error absoluto medio. En promedio, la predicción de la columna objetivo es +/- {MAE} respecto al valor real.

    Mide la diferencia entre los valores pronosticados y reales cuando se promedian entre todos los valores. MAEse utiliza habitualmente en la predicción numérica para comprender el error de predicción del modelo. Si las predicciones son lineales, MAE representa la distancia media desde una línea pronosticada hasta el valor real. MAEse define como la suma de los errores absolutos dividida por el número de observaciones. Los valores van desde 0 hasta el infinito, y los números más pequeños indican un mejor ajuste del modelo a los datos.

  • MAPE— Error porcentual absoluto medio. En promedio, la predicción para la columna objetivo es de +/- {MAPE}% del valor real.

    MAPEes la media de las diferencias absolutas entre los valores reales y los valores previstos o estimados, dividida por los valores reales y expresada en porcentaje. Un valor inferior MAPE indica un mejor rendimiento, ya que significa que los valores previstos o estimados se acercan más a los valores reales.

  • MSE— Error cuadrático medio, o el promedio de las diferencias cuadráticas entre los valores pronosticados y reales.

    MSElos valores son siempre positivos. Cuanto mejor prediga un modelo los valores reales, menor será el MSE valor.

  • R2: el porcentaje de la diferencia en la columna de destino que se puede explicar mediante la columna de entrada.

    Cuantifica en qué medida un modelo puede explicar la varianza de una variable dependiente. Los valores oscilan entre uno (1) y menos uno (-1). Los números más altos indican una fracción más alta de la variabilidad explicada. Los valores cercanos a cero (0) indican que el modelo puede explicar muy poco de la variable dependiente. Los valores negativos indican un ajuste deficiente y que el rendimiento del modelo es superado por una función constante (o una línea horizontal).

  • RMSE— El error cuadrático medio raíz o la desviación estándar de los errores.

    Mide la raíz cuadrada de la diferencia cuadrática entre los valores pronosticados y reales, y se promedia entre todos los valores. Se utiliza para entender los errores de predicción del modelo y es una métrica importante para indicar la presencia de errores y valores atípicos de gran tamaño en el modelo. Los valores van desde cero (0) hasta infinito, y los números más pequeños indican el modelo que se ajusta mejor a los datos. RMSEdepende de la escala y no debe usarse para comparar conjuntos de datos de diferentes tipos.

Métricas para la predicción categórica

En esta sección, se definen las métricas para la predicción categórica en SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

La siguiente es una lista de las métricas disponibles para la predicción de 2 categorías:

  • Exactitud: la exactitud mide el porcentaje de predicciones correctas.

    O bien, la relación entre el número de elementos pronosticados correctamente y el número total de predicciones. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una precisión perfecta y 0 indica una imprecisión total.

  • AUC— Un valor entre 0 y 1 que indica qué tan bien el modelo es capaz de separar las categorías del conjunto de datos. Un valor de 1 indica que fue capaz de separar las categorías a la perfección.

  • BalancedAccuracy — Mide la relación entre las predicciones precisas y todas las predicciones.

    Esta relación se calcula después de normalizar los positivos verdaderos (TP) y los negativos verdaderos (TN) mediante el número total de valores positivos (P) y negativos (N). Se define de la siguiente manera:0.5*((TP/P)+(TN/N)), con valores que van de 0 a 1. La métrica de precisión equilibrada proporciona una mejor medida de la precisión cuando el número de positivos o negativos difiere mucho entre sí en un conjunto de datos desequilibrado, como cuando solo el 1% del correo electrónico es spam.

  • F1: una medida equilibrada de precisión que tiene en cuenta el equilibrio de clases.

    Es la media armónica de las puntuaciones de precisión y recuperación, definidas de la siguiente manera:. F1 = 2 * (precision * recall) / (precision + recall) Las puntuaciones de F1 varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.

  • InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se implementa el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensambling.

  • LogLoss — La pérdida logarítmica, también conocida como pérdida de entropía cruzada, es una métrica que se utiliza para evaluar la calidad de las salidas probabilísticas, en lugar de las salidas en sí mismas. La pérdida logarítmica es una métrica importante para indicar, con una alta probabilidad, el momento en el que un modelo hace predicciones incorrectas. Los valores están comprendidos entre 0 e infinito. Un valor de 0 representa un modelo que predice perfectamente los datos.

  • Precisión: de todas las veces que se predijo {categoría x}, la predicción fue correcta el {precisión} el% de las veces.

    La precisión mide el rendimiento de un algoritmo al predecir los verdaderos positivos (TP) de entre todos los positivos que identifica. Se define de la siguiente manera:Precision = TP/(TP+FP), con valores que van desde cero (0) hasta uno (1). La precisión es una métrica importante cuando el coste de un falso positivo es elevado. Por ejemplo, el coste de un falso positivo es muy elevado si el sistema de seguridad de un avión se equivoca al decir que es seguro volar. Un falso positivo (FP) refleja una predicción positiva que, en realidad, es negativa en los datos.

  • Recordación: el modelo predijo correctamente que {recuerdo}% sería {categoría x} cuando {target_column} en realidad era {categoría x}.

    La exhaustividad mide el rendimiento de un algoritmo a la hora de predecir correctamente todos los positivos verdaderos (TP) de un conjunto de datos. Un positivo verdadero es una predicción positiva que también es un valor positivo real en los datos. La recuperación se define de la siguiente manera:Recall = TP/(TP+FN), con valores que van de 0 a 1. Las puntuaciones más altas reflejan una mejor capacidad del modelo para predecir los verdaderos positivos (TP) en los datos. Tenga en cuenta que a menudo no es suficiente medir solo la recuperación, ya que al predecir cada salida como un verdadero positivo se obtiene una puntuación de recuperación perfecta.

La siguiente es una lista de las métricas disponibles para la predicción de más de 3 categorías:

  • Exactitud: la exactitud mide el porcentaje de predicciones correctas.

    O bien, la relación entre el número de elementos pronosticados correctamente y el número total de predicciones. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una precisión perfecta y 0 indica una imprecisión total.

  • BalancedAccuracy — Mide la relación entre las predicciones precisas y todas las predicciones.

    Esta relación se calcula después de normalizar los positivos verdaderos (TP) y los negativos verdaderos (TN) mediante el número total de valores positivos (P) y negativos (N). Se define de la siguiente manera:0.5*((TP/P)+(TN/N)), con valores que van de 0 a 1. La métrica de precisión equilibrada proporciona una mejor medida de la precisión cuando el número de positivos o negativos difiere mucho entre sí en un conjunto de datos desequilibrado, como cuando solo el 1% del correo electrónico es spam.

  • F1macro: la puntuación F1macro aplica la puntuación F1 calculando la precisión y la recuperación y, a continuación, tomando su media armónica para calcular la puntuación F1 de cada clase. A continuación, el F1macro promedia las puntuaciones individuales para obtener la puntuación F1macro. Las puntuaciones de F1macro varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.

  • InferenceLatency — El tiempo aproximado que transcurre entre la solicitud de una predicción del modelo y su recepción desde un punto final en tiempo real en el que se despliega el modelo. Esta métrica se mide en segundos y solo está disponible para los modelos creados con el modo Ensambling.

  • LogLoss — La pérdida logarítmica, también conocida como pérdida de entropía cruzada, es una métrica que se utiliza para evaluar la calidad de las salidas probabilísticas, en lugar de las salidas en sí mismas. La pérdida logarítmica es una métrica importante para indicar, con una alta probabilidad, el momento en el que un modelo hace predicciones incorrectas. Los valores están comprendidos entre 0 e infinito. Un valor de 0 representa un modelo que predice perfectamente los datos.

  • PrecisionMacro — Mide la precisión calculando la precisión de cada clase y promediando las puntuaciones para obtener la precisión de varias clases. Las puntuaciones oscilan entre cero (0) y uno (1). Las puntuaciones más altas reflejan la capacidad del modelo para predecir positivos verdaderos (TP) a partir de todos los positivos que identifica, promediados en varias clases.

  • RecallMacro — Mide la memoria calculando la memoria de cada clase y promediando las puntuaciones para obtener la memoria de varias clases. Las puntuaciones oscilan entre 0 y 1. Las puntuaciones más altas reflejan la capacidad del modelo para predecir positivos verdaderos (TP) en un conjunto de datos, mientras que un resultado positivo verdadero refleja una predicción positiva que también es un valor positivo real en los datos. A menudo, no basta con medir solo la exhaustividad, ya que, si se predice cada salida como un verdadero positivo, se obtiene una puntuación de exhaustividad perfecta.

Ten en cuenta que para las predicciones de más de 3 categorías, también recibes las métricas promedio de F1, precisión, precisión y recuperación. Las puntuaciones de estas métricas son solo las puntuaciones de las métricas promediadas para todas las categorías.

Métricas para la predicción de imágenes y textos

La siguiente es una lista de las métricas disponibles para la predicción de imágenes y textos.

  • Exactitud: la exactitud mide el porcentaje de predicciones correctas.

    O bien, la relación entre el número de elementos pronosticados correctamente y el número total de predicciones. La precisión mide el grado de aproximación de los valores de clase pronosticados con respecto a los valores reales. Los valores de las métricas de precisión varían entre cero (0) y uno (1). Un valor de 1 indica una precisión perfecta y 0 indica una imprecisión total.

  • F1: una medida equilibrada de precisión que tiene en cuenta el equilibrio de clases.

    Es la media armónica de las puntuaciones de precisión y recuperación, definidas de la siguiente manera:F1 = 2 * (precision * recall) / (precision + recall). Las puntuaciones de F1 varían entre 0 y 1. Una puntuación de 1 indica el mejor rendimiento posible y 0 indica el peor.

  • Precisión: de todas las veces que se predijo {categoría x}, la predicción fue correcta el {precisión} el% de las veces.

    La precisión mide el rendimiento de un algoritmo al predecir los verdaderos positivos (TP) de entre todos los positivos que identifica. Se define de la siguiente manera:Precision = TP/(TP+FP), con valores que van desde cero (0) hasta uno (1). La precisión es una métrica importante cuando el coste de un falso positivo es elevado. Por ejemplo, el coste de un falso positivo es muy elevado si el sistema de seguridad de un avión se equivoca al decir que es seguro volar. Un falso positivo (FP) refleja una predicción positiva que, en realidad, es negativa en los datos.

  • Recordación: el modelo predijo correctamente que {recuerdo}% sería {categoría x} cuando {target_column} en realidad era {categoría x}.

    La exhaustividad mide el rendimiento de un algoritmo a la hora de predecir correctamente todos los positivos verdaderos (TP) de un conjunto de datos. Un positivo verdadero es una predicción positiva que también es un valor positivo real en los datos. La recuperación se define de la siguiente manera:Recall = TP/(TP+FN), con valores que van de 0 a 1. Las puntuaciones más altas reflejan una mejor capacidad del modelo para predecir los verdaderos positivos (TP) en los datos. Tenga en cuenta que a menudo no es suficiente medir solo la recuperación, ya que al predecir cada salida como un verdadero positivo se obtiene una puntuación de recuperación perfecta.

Tenga en cuenta que, en el caso de los modelos de predicción de imágenes y textos en los que predice 3 o más categorías, también recibirá las métricas promedio de F1, precisión, precisión y recuperación. Las puntuaciones de estas métricas son solo el promedio de las puntuaciones métricas de todas las categorías.

Métricas para previsiones de series temporales

A continuación, se definen las métricas avanzadas para las previsiones de series temporales en Amazon SageMaker Canvas y se proporciona información sobre cómo utilizarlas.

  • Pérdida de cuantil ponderada media (wQL): evalúa el pronóstico promediando la exactitud de los cuantiles P10, P50 y P90. Un valor más bajo indica un modelo más exacto.

  • Error porcentual absoluto ponderado (WAPE): la suma del error absoluto normalizado por la suma del objetivo absoluto, que mide la desviación general de los valores pronosticados con respecto a los valores observados. Un valor más bajo indica un modelo más preciso, donde WAPE = 0 es un modelo sin errores.

  • Error cuadrático medio (RMSE): la raíz cuadrada del promedio de errores cuadráticos. Un valor inferior RMSE indica un modelo más preciso, donde RMSE = 0 es un modelo sin errores.

  • Error porcentual absoluto medio (MAPE): el porcentaje de error (diferencia porcentual entre el valor medio previsto y el valor real) promediado en todos los momentos temporales. Un valor más bajo indica un modelo más preciso, donde MAPE = 0 es un modelo sin errores.

  • Error de escala absoluto medio (MASE): el error absoluto medio de la previsión normalizado mediante el error absoluto medio de un método de previsión de referencia simple. Un valor más bajo indica un modelo más preciso, en el que se estima que MASE < 1 es mejor que la línea base y MASE > 1 se estima que es peor que la línea base.