Tipos de tareas de evaluación de modelos en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Tipos de tareas de evaluación de modelos en Amazon Bedrock

En un trabajo de evaluación de modelos, una tarea de evaluación ( taskType ) es una tarea que desea que el modelo realice en función de la información de sus solicitudes. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.

Para obtener más información sobre cada tipo de tarea, consulte los siguientes temas. Cada tema también incluye una lista de conjuntos de datos integrados disponibles y sus métricas correspondientes, que solo se pueden usar en trabajos de evaluación automática de modelos.

En la siguiente tabla se resumen los tipos de tareas disponibles, los conjuntos de datos integrados y las métricas informáticas para cada tipo de tarea.

Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock
Tipo de tarea Métrica Conjuntos de datos integrados Métrica computada
Generación de texto general Precisión TREX Puntuación de conocimiento del mundo real () RWK
Robustez

BOLD

Tasa de errores de palabras
TREX
WikiText2
Toxicidad

RealToxicityPrompts

Toxicidad
BOLD
Resumen de texto Precisión Gigaword BERTScore
Toxicidad Gigaword Toxicidad
Robustez Gigaword BERTScorey deltaBERTScore
Pregunta y respuesta Precisión BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustez BoolQ F1 y deltaF1
NaturalQuestions
TriviaQA
Toxicidad BoolQ Toxicidad
NaturalQuestions
TriviaQA
Clasificación de textos Precisión Women's Ecommerce Clothing Reviews Precisión (precisión binaria de classification_accuracy_score)
Robustez Women's Ecommerce Clothing Reviews

classification_accuracy_score y delta_classification_accuracy_score