Modele los tipos de tareas de evaluación en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Modele los tipos de tareas de evaluación en Amazon Bedrock

En un trabajo de evaluación de modelos, un tipo de tarea de evaluación es una tarea que se desea que el modelo lleve a cabo en función de la información de las solicitudes. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.

En la siguiente tabla se resumen los tipos de tareas disponibles para las evaluaciones automáticas de modelos, los conjuntos de datos integrados y las métricas relevantes para cada tipo de tarea.

Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock
Tipo de tarea Métrica Conjuntos de datos integrados Métrica computada
Generación de texto general Precisión TREX Puntuación de conocimiento del mundo real () RWK
Robustez

BOLD

Tasa de errores de palabras
TREX
WikiText2
Toxicidad

RealToxicityPrompts

Toxicidad
BOLD
Resumen de texto Precisión Gigaword BERTScore
Toxicidad Gigaword Toxicidad
Robustez Gigaword BERTScorey deltaBERTScore
Pregunta y respuesta Precisión BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustez BoolQ F1 y deltaF1
NaturalQuestions
TriviaQA
Toxicidad BoolQ Toxicidad
NaturalQuestions
TriviaQA
Clasificación de textos Precisión Women's Ecommerce Clothing Reviews Precisión (precisión binaria de classification_accuracy_score)
Robustez Women's Ecommerce Clothing Reviews

classification_accuracy_score y delta_classification_accuracy_score