Revise las métricas de un trabajo de evaluación de modelos automatizado en Amazon Bedrock (consola)

Puede revisar las métricas presentadas en un informe para un trabajo de evaluación automática de modelos mediante la consola Amazon Bedrock.

En la tarjeta del informe de la evaluación de modelos, verá el número total de peticiones del conjunto de datos que haya proporcionado o seleccionado, y cuántas de esas peticiones recibieron respuestas. Si la cantidad de respuestas es menor que la cantidad de peticiones de entrada, asegúrese de comprobar el archivo de salida de datos en su bucket de Amazon S3. Es posible que la petición haya provocado un error en el modelo y que no se haya obtenido ninguna inferencia. En los cálculos de las métricas solamente se utilizarán respuestas del modelo.

Utilice el siguiente procedimiento para revisar un trabajo de evaluación de modelos automática en la consola de Amazon Bedrock.

Abra la consola de Amazon Bedrock.
En el panel de navegación, elija Evaluación de modelo.
A continuación, en la tabla de Evaluaciones de modelos, busque el nombre del trabajo de evaluación de modelos automatizada que desee revisar. Después, selecciónelo.

En todas las métricas relacionadas con la robustez semántica, Amazon Bedrock altera las peticiones de las siguientes maneras: convertir el texto a minúsculas, errores tipográficos de teclado, convertir números en palabras, cambiar aleatoriamente a mayúsculas y agregar o eliminar espacios en blanco de forma aleatoria.

Tras abrir el informe de evaluación de modelos, puede ver las métricas resumidas y el Resumen de la configuración del trabajo.

Para cada conjunto de datos de métricas y peticiones especificado cuando se creó el trabajo, verá una tarjeta y un valor para cada conjunto de datos especificado para esa métrica. La forma en que se calcula este valor cambia en función del tipo de tarea y de las métricas que haya seleccionado.

Cómo se calcula cada métrica disponible cuando se aplica al tipo de tarea de generación de texto general

Precisión: para esta métrica, el valor se calcula utilizando la puntuación de conocimiento del mundo real (RWKpuntuación). RWKLa puntuación examina la capacidad del modelo para codificar el conocimiento fáctico sobre el mundo real. Una RWK puntuación alta indica que el modelo es preciso.
Robustez: para esta métrica, el valor se calcula mediante la robustez semántica. Esta se calcula a partir de la tasa de error de palabras. La robustez semántica mide cuánto cambia la salida del modelo como resultado de perturbaciones menores que preservan la semántica en la entrada. La robustez ante dichas perturbaciones es una propiedad deseable y, por lo tanto, una puntuación de robustez semántica baja indica que el modelo está funcionando bien.

Los tipos de perturbación que consideraremos son: convertir el texto a minúsculas, errores tipográficos de teclado, convertir números en palabras, cambiar aleatoriamente a mayúsculas y agregar o eliminar espacios en blanco de forma aleatoria. Cada mensaje del conjunto de datos se perturba aproximadamente 5 veces. Luego, cada respuesta perturbada se envía para su inferencia y se usa para calcular las puntuaciones de robustez automáticamente.
Toxicidad: para esta métrica, el valor se calcula utilizando la toxicidad del algoritmo de desintoxicación. Un valor de toxicidad bajo indica que el modelo seleccionado no produce grandes cantidades de contenido tóxico. Para obtener más información sobre el algoritmo de desintoxicación y ver cómo se calcula la toxicidad, consulte el algoritmo de desintoxicación en. GitHub

Cómo se calcula cada métrica disponible cuando se aplica al tipo de tarea de resumen de texto

Precisión: para esta métrica, el valor se calcula mediante BERT la puntuación. BERTLa puntuación se calcula mediante incrustaciones contextuales de modelos previamente entrenadas. BERT Hace coincidir las palabras de las oraciones candidatas y de referencia por similitud de coseno.
Robustez: para esta métrica, el valor calculado es un porcentaje. Se calcula tomando (DeltaBERTScore/BERTScore) x 100. Delta BERTScore es la diferencia en BERT las puntuaciones entre un indicador perturbado y el indicador original del conjunto de datos. Cada mensaje del conjunto de datos se perturba aproximadamente 5 veces. Luego, cada respuesta perturbada se envía para su inferencia y se usa para calcular las puntuaciones de robustez automáticamente. Una puntuación más baja indica que el modelo seleccionado es más robusto.
Toxicidad: para esta métrica, el valor se calcula utilizando la toxicidad del algoritmo de desintoxicación. Un valor de toxicidad bajo indica que el modelo seleccionado no produce grandes cantidades de contenido tóxico. Para obtener más información sobre el algoritmo de desintoxicación y ver cómo se calcula la toxicidad, consulte el algoritmo de desintoxicación en. GitHub

Cómo se calcula cada métrica disponible cuando se aplica al tipo de tarea de pregunta y respuesta

Precisión: para esta métrica, el valor calculado es una puntuación F1. La puntuación F1 se calcula dividiendo la puntuación de precisión (la relación entre las predicciones correctas y todas las predicciones) entre la puntuación de recuerdo (la relación entre las predicciones correctas y el número total de predicciones relevantes). La puntuación F1 oscila entre 0 y 1, y los valores más altos indican un mejor rendimiento.
Robustez: para esta métrica, el valor calculado es un porcentaje. Se calcula tomando (Delta F1 / F1) x 100. Delta F1 es la diferencia en las puntuaciones de F1 entre un indicador perturbado y el indicador original del conjunto de datos. Cada mensaje del conjunto de datos se perturba aproximadamente 5 veces. Luego, cada respuesta perturbada se envía para su inferencia y se usa para calcular las puntuaciones de robustez automáticamente. Una puntuación más baja indica que el modelo seleccionado es más robusto.
Toxicidad: para esta métrica, el valor se calcula utilizando la toxicidad del algoritmo de desintoxicación. Un valor de toxicidad bajo indica que el modelo seleccionado no produce grandes cantidades de contenido tóxico. Para obtener más información sobre el algoritmo de desintoxicación y ver cómo se calcula la toxicidad, consulte el algoritmo de desintoxicación en. GitHub

Cómo se calcula cada métrica disponible cuando se aplica al tipo de tarea de clasificación de textos

Precisión: para esta métrica, el valor calculado es la precisión. La precisión es una puntuación que compara la clase pronosticada con su etiqueta de veracidad. Una precisión más alta indica que el modelo clasifica correctamente el texto según la etiqueta de veracidad proporcionada.
Robustez: para esta métrica, el valor calculado es un porcentaje. Se calcula calculando (puntuación de precisión de la clasificación delta/ puntuación de precisión de la clasificación) x 100. La puntuación de precisión de la clasificación delta es la diferencia entre la puntuación de precisión de la clasificación del indicador perturbado y el indicador de entrada original. Cada mensaje del conjunto de datos se perturba aproximadamente 5 veces. Luego, cada respuesta perturbada se envía para su inferencia y se usa para calcular las puntuaciones de robustez automáticamente. Una puntuación más baja indica que el modelo seleccionado es más robusto.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Informes y métricas para la evaluación de modelos

Revise un trabajo de evaluación de un modelo humano