Exactitud - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Exactitud

Esta evaluación mide la exactitud con la que funciona un modelo en una tarea al comparar la salida del modelo con la respuesta basada en la verdad fundamental incluida en el conjunto de datos.

Amazon SageMaker AI admite la ejecución de una evaluación de precisión desde Amazon SageMaker Studio o el uso de la fmeval biblioteca.

  • Ejecución de evaluaciones en Studio: los trabajos de evaluación creados en Studio utilizan valores predeterminados preseleccionados para evaluar rápidamente el rendimiento del modelo.

  • Ejecución de evaluaciones con la biblioteca fmeval: los trabajos de evaluación creados con la biblioteca fmeval ofrecen más opciones para configurar la evaluación del rendimiento del modelo.

Tipo de tarea admitida

La evaluación de la exactitud es compatible con los siguientes tipos de tareas con sus conjuntos de datos integrados asociados. Los conjuntos de datos integrados incluyen un componente de verdad fundamental que se utiliza para medir la exactitud. Los usuarios también pueden traer sus propios conjuntos de datos. Para obtener más información sobre cómo incluir el componente de verdad fundamental en su conjunto de datos, consulte Evaluación del modelo automática.

De forma predeterminada, la SageMaker IA toma muestras de 100 indicaciones aleatorias del conjunto de datos para evaluar la precisión. Cuando se usa la fmeval biblioteca, esto se puede ajustar pasando el num_records parámetro al evaluate método. Para obtener información sobre cómo personalizar la evaluación del conocimiento fáctico mediante la fmeval biblioteca, consulte. Personalización de su flujo de trabajo mediante la biblioteca fmeval

Tipo de tarea Conjuntos de datos integrados Notas
Resumen de texto Gigaword, Government Report Dataset Los conjuntos de datos integrados solo están en inglés, pero algunas métricas son independientes del idioma. Puede introducir conjuntos de datos en cualquier idioma.
Respuesta a preguntas BoolQ, TriviaQA NaturalQuestions Los conjuntos de datos integrados solo están en inglés, pero algunas métricas son independientes del idioma. Puede introducir conjuntos de datos en cualquier idioma.
Clasificación Women's E-Commerce Clothing Reviews

Valores calculados

Las puntuaciones medidas para evaluar la exactitud cambian según el tipo de tarea. Para obtener más información sobre la estructura de las peticiones necesaria para la evaluación, consulte Creación de un trabajo de evaluación del modelo automática en Studio.

Resumen

Para las tareas de resumen, la evaluación de la exactitud mide la exactitud con la que un modelo puede resumir el texto. De forma predeterminada, esta evaluación compara el modelo con dos conjuntos de datos integrados que contienen pares de texto de entrada y respuestas basadas en la verdad fundamental. Luego, los resúmenes generados por el modelo se comparan con las respuestas de la verdad fundamental mediante tres métricas integradas que miden la similitud de los resúmenes de diferentes maneras. Se hace una media de todas estas puntuaciones en todo el conjunto de datos.

  • Puntuación ROUGE: las puntuaciones ROUGE son una clase de métricas que calculan unidades de palabras superpuestas (n-gramas) entre el resumen generado por el modelo y el resumen basado en la verdad fundamental para medir la calidad del resumen. Al evaluar una puntuación ROUGE, las puntuaciones más altas indican que el modelo fue capaz de crear un resumen mejor.

    • Los valores oscilan entre 0 (sin coincidencia) y 1 (coincidencia perfecta).

    • Las métricas no distinguen entre mayúsculas y minúsculas.

    • Limitación: puede ser poco fiable en las tareas de resumen abstracto porque la puntuación se basa en la superposición exacta de palabras.

    • Ejemplo de cálculo de un bigrama de ROUGE

      • Resumen basado en la verdad fundamental: “El perro jugaba a buscar la pelota en el parque”.

      • Resumen generado: “El perro jugaba con la pelota”.

      • ROUGE-2: cuenta el número de bigramas (dos palabras adyacentes en una oración) en común entre la referencia y el candidato. Hay 4 bigramas comunes (“el perro”, “el perro jugó”, “con la”, “la pelota”).

      • División por el número total de bigramas en el resumen de la verdad fundamental: 9

      • ROUGE-2 = 4/9 = 0.444

    • La puntuación ROUGE es la predeterminada en los trabajos de evaluación de modelos automática de Studio

      Al crear un trabajo de evaluación automática de modelos con Studio, la SageMaker IA utiliza los N-gramas utilizados en el N=2 cálculo de la puntuación de ROUGE. Como resultado, el trabajo de evaluación del modelo utiliza bigramas para realizar la correspondencia. Los trabajos de Studio también utilizan el lematizador de Porter para eliminar los sufijos de las palabras de todas las peticiones. Por ejemplo, la cadena raining se trunca en rain.

    • Opciones de puntuaciones ROUGE disponibles en la biblioteca fmeval

      Con la biblioteca fmeval, puede configurar cómo se calcula la puntuación ROUGE mediante el parámetro SummarizationAccuracyConfig. Las siguientes opciones son compatibles: 

      • rouge_type: la longitud de los n-gramas que debe coincidir. Los tres valores admitidos son:

        •  ROUGE_1 coincide con palabras individuales (unigramas)

        •  ROUGE_2 coincide con pares de palabras (bigramas). Este es el valor predeterminado.

        •  ROUGE_L coincide con la subsecuencia común más larga.  Para calcular la subsecuencia común más larga, se tiene en cuenta el orden de las palabras, pero no si son consecutivas

          • Por ejemplo:

            • resumen del modelo = “Es otoño”

            • referencia = “Es otoño de nuevo”

            • Longest common subsequence(prediction, reference)=3

      • use_stemmer_for_rouge: si True (predeterminado), se usa el lematizador de Porter para eliminar los sufijos de las palabras. 

        • Por ejemplo, “lloviendo” se trunca en “lluvia”.

  • Métrica para evaluar la traducción con una puntuación explícita ORdering (METEOR): METEOR es similar a ROUGE-1, pero también incluye la coincidencia de derivaciones y sinónimos. Ofrece una visión más holística de la calidad de los resúmenes en comparación con ROUGE, que se limita a la simple coincidencia de n-gramas. Las puntuaciones más altas de METEOR suelen indicar una mayor exactitud.

    • Limitación: puede ser poco fiable en las tareas de resumen abstracto porque la puntuación se basa en la superposición exacta de palabras y sinónimos.

  • BERTScore: BERTScore utiliza un modelo ML adicional de la familia BERT para calcular las incrustaciones de oraciones y comparar su similitud de coseno. Esta puntuación pretende tener en cuenta una mayor flexibilidad lingüística que ROUGE y METEOR, ya que las oraciones semánticamente similares pueden estar incrustadas más cerca unas de otras.

    • Limitaciones:

      • Hereda las limitaciones del modelo utilizado para comparar pasajes.

      • Puede resultar poco fiable para las comparaciones de textos cortos cuando se cambia una sola palabra importante.

    • BERTScorees el valor predeterminado en los trabajos de evaluación automática de modelos de Studio

      Al crear un trabajo de evaluación automática de modelos con Studio, la SageMaker IA utiliza el deberta-xlarge-mnli modelo para calcular el BERTScore.

    • BERTScore opciones disponibles en la fmeval biblioteca

      Con la fmeval biblioteca, puede configurar cómo BERTScore se calcula mediante el SummarizationAccuracyConfig parámetro. Las siguientes opciones son compatibles:

Respuesta a preguntas

En el caso de las tareas de respuesta a preguntas, la evaluación de la exactitud mide el rendimiento de la respuesta a las preguntas (QA) de un modelo comparando las respuestas generadas con las respuestas basadas en la verdad fundamental dadas de diferentes maneras. Se hace la media de todas estas puntuaciones en todo el conjunto de datos.

nota

Estas métricas se calculan comparando las respuestas basadas en la verdad fundamental con las generadas para obtener una coincidencia exacta. Como resultado, podrían ser menos fiables cuando se trata de preguntas en las que la respuesta puede reformularse sin modificar su significado.

  • Puntuación de precisión con exceso de palabras: puntuación numérica que oscila entre 0 (peor) y 1 (mejor). Para calcular esta puntuación, la salida del modelo y la verdad fundamental se normalizan antes de la comparación. Antes de calcular la precisión, esta evaluación elimina los caracteres de nueva línea para tener en cuenta las respuestas excesivamente detalladas con varios párrafos distintos. La precisión se puede evaluar en cualquier idioma si carga su propio conjunto de datos.

    • precision = true positives / (true positives + false positives)

      • true positives: el número de palabras de la salida del modelo que también figuran en la verdad fundamental.

      • false positives: el número de palabras de la salida del modelo que no figuran en la verdad fundamental.

  • Puntuación de exhaustividad con exceso de palabras: puntuación numérica que oscila entre 0 (peor) y 1 (mejor). Para calcular esta puntuación, la salida del modelo y la verdad fundamental se normalizan antes de la comparación. Antes de calcular la exhaustividad, esta evaluación elimina los caracteres de nueva línea para tener en cuenta las respuestas excesivamente detalladas con varios párrafos distintos. Dado que la exhaustividad solo comprueba si la respuesta contiene la verdad fundamental y no penaliza que sea excesivamente detallada, sugerimos utilizar la exhaustividad para los modelos de respuestas excesivamente detalladas. La exhaustividad se puede evaluar en cualquier idioma si carga su propio conjunto de datos.

    • recall = true positives / (true positives + false negatives)

      • true positives: el número de palabras de la salida del modelo que también figuran en la verdad fundamental.

      • false negatives: el número de palabras que faltan en la salida del modelo, pero que se incluyen en la verdad fundamental.

  • Puntuación de F1 con exceso de palabras: puntuación numérica que oscila entre 0 (peor) y 1 (mejor). F1 es la media armónica entre la precisión y la exhaustividad. Para calcular esta puntuación, la salida del modelo y la verdad fundamental se normalizan antes de la comparación. Antes de calcular F1, esta evaluación elimina cualquier carácter de nueva línea para tener en cuenta las respuestas extremadamente detalladas con varios párrafos distintos. F1 con exceso de palabras puede evaluarse en cualquier idioma si carga su propio conjunto de datos.

    • F1 = 2*((precision * recall)/(precision + recall))

      • precision: la precisión se calcula de la misma manera que la puntuación de precisión.

      • recall: la exhaustividad se calcula de la misma manera que la puntuación de exhaustividad.

  • Puntuación de coincidencia exacta (EM): puntuación binaria que indica si la salida del modelo coincide exactamente con la respuesta basada en la verdad fundamental. La coincidencia exacta se puede evaluar en cualquier idioma si carga su propio conjunto de datos.

    • 0: no hay una coincidencia exacta.

    • 1: coincidencia exacta

    • Ejemplo:

      • Pregunta: where is the world's largest ice sheet located today?”

      • Verdad fundamental: “Antártida”

      • Respuesta generada: “en la Antártida”

        • Puntuación: 0

      • Respuesta generada: “Antártida”

        • Puntuación: 1

  • Puntuación de coincidencia casi exacta: puntuación binaria que se calcula de forma similar a la puntuación EM, pero el resultado del modelo y la verdad fundamental se normalizan antes de la comparación. En ambos casos, la salida se normaliza convirtiéndola a minúsculas y, a continuación, eliminando los artículos, los signos de puntuación y los espacios en blanco innecesarios.

    • 0: no hay una coincidencia casi exacta.

    • 1: coincidencia casi exacta

    • Ejemplo:

      • Pregunta: where is the world's largest ice sheet located today?”

      • Verdad fundamental: “Antártida”

      • Respuesta generada: “en Sudamérica”

        • Puntuación: 0

      • Respuesta generada: “en la Antártida”

        • Puntuación: 1

Clasificación

Para las tareas de clasificación, la evaluación de la exactitud compara la clase de entrada pronosticada con su etiqueta dada. Se hace la media de todas estas puntuaciones de forma individual en todo el conjunto de datos.

  • Puntuación de exactitud: puntuación binaria que indica si la etiqueta que ha pronosticado el modelo coincide exactamente con la etiqueta dada de la entrada.

    • 0: no hay una coincidencia exacta.

    • 1: coincidencia exacta

  • Puntuación de precisión: puntuación numérica que oscila entre 0 (peor) hasta 1 (mejor).

    • precision = true positives / (true positives + false positives)

      • true positives: el número de entradas en las que el modelo predijo la etiqueta dada para la entrada correspondiente.

      • false positives: el número de entradas en las que el modelo ha pronosticado una etiqueta que no coincidía con la etiqueta dada para su entrada correspondiente.

    • La puntuación de precisión es la predeterminada en los trabajos de evaluación del modelo automática de Studio

      Al crear un trabajo de evaluación automática de modelos con Studio, la SageMaker IA calcula la precisión global en todas las clases contando el número total de positivos verdaderos, falsos negativos y falsos positivos.

    • Las opciones de puntuación de precisión están disponibles en la biblioteca fmeval

      Con la biblioteca fmeval, puede configurar cómo se calcula la puntuación de precisión mediante el parámetro ClassificationAccuracyConfig. Las siguientes opciones son compatibles: 

      • multiclass_average_strategy determina cómo se agregan las puntuaciones entre las clases en la configuración de la clasificación multiclase. Los valores posibles son {'micro', 'macro', 'samples', 'weighted', 'binary'} o None (predeterminado = 'micro').  En el caso predeterminado 'micro', la precisión se calcula globalmente en todas las clases contando el número total de positivos verdaderos, falsos negativos y falsos positivos. En relación con el resto de opciones, consulte sklearn.metrics.precision_score.

        nota

        Para la clasificación binaria, recomendamos utilizar la estrategia de cálculo de medias 'binary', que se corresponde a la definición clásica de precisión.

  • Puntuación de exhaustividad: puntuación numérica que oscila entre 0 (peor) y 1 (mejor).

    • recall = true positives / (true positives + false negatives)

      • true positives: el número de entradas en las que el modelo pronosticó la etiqueta dada para la entrada correspondiente.

      • false negatives: el número de entradas en las que el modelo no pronosticó la etiqueta dada para la entrada correspondiente.

    • La puntuación de exhaustividad es la predeterminada en los trabajos de evaluación del modelo automática de Studio

      Al crear un trabajo de evaluación automática de modelos con Studio, la SageMaker IA calcula la recuperación global de todas las clases contando el número total de positivos verdaderos, falsos negativos y falsos positivos.

    • Las opciones de puntuación de exhaustividad están disponibles en la biblioteca fmeval

      Con la biblioteca fmeval, puede configurar cómo se calcula la puntuación de exhaustividad mediante el parámetro ClassificationAccuracyConfig. Las siguientes opciones son compatibles: 

      • multiclass_average_strategy determina cómo se agregan las puntuaciones entre las clases en la configuración de la clasificación multiclase. Los valores posibles son {'micro', 'macro', 'samples', 'weighted', 'binary'} o None (predeterminado = 'micro').  En el caso predeterminado 'micro', la exhaustividad se calcula globalmente en todas las clases contando el número total de positivos verdaderos, falsos negativos y falsos positivos. En relación con el resto de opciones, consulte sklearn.metrics.precision_score.

        nota

        Para la clasificación binaria, recomendamos utilizar la estrategia de cálculo de medias 'binary', que se corresponde a la definición clásica de exhaustividad.

  • Exactitud de clasificación equilibrada: puntuación numérica que oscila entre 0 (peor) y 1 (mejor).

    • Para la clasificación binaria: esta puntuación se calcula de la misma manera que la exactitud.

    • Para la clasificación multiclase: esta puntuación es una media de las puntuaciones de exhaustividad individual de todas las clases.

      • En el siguiente ejemplo, se obtiene esta salida:

        Texto de revisión Etiquetado de datos reales Class name Etiqueta pronosticada
        ¡El pastel estaba riquísimo! Lo volvería a comprar. 3 brownie 3
        ¡El pastel está muy bueno! Lo recomiendo. 2 bizcocho 2
        ¡Malísimo! El pastel está asqueroso. 1 bizcocho 2
        • Exhaustividad de clase 1: 0

        • Exhaustividad de clase 2: 1

        • Exhaustividad de clase 3: 1

        • Exactitud de clasificación equilibrada: (0+1+1)/3=0,66