Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Modele los tipos de tareas de evaluación en Amazon Bedrock
En un trabajo de evaluación de modelos, un tipo de tarea de evaluación es una tarea que se desea que el modelo lleve a cabo en función de la información de las solicitudes. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.
En la siguiente tabla se resumen los tipos de tareas disponibles para las evaluaciones automáticas de modelos, los conjuntos de datos integrados y las métricas relevantes para cada tipo de tarea.
Tipo de tarea | Métrica | Conjuntos de datos integrados | Métrica computada |
---|---|---|---|
Generación de texto general | Precisión | TREX |
Puntuación de conocimiento del mundo real () RWK |
Robustez | Tasa de errores de palabras | ||
TREX |
|||
WikiText2 |
|||
Toxicidad | Toxicidad | ||
BOLD |
|||
Resumen de texto | Precisión | Gigaword |
BERTScore |
Toxicidad | Gigaword |
Toxicidad | |
Robustez | Gigaword |
BERTScorey deltaBERTScore | |
Pregunta y respuesta | Precisión | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Robustez | BoolQ |
F1 y deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Toxicidad | BoolQ |
Toxicidad | |
NaturalQuestions |
|||
TriviaQA |
|||
Clasificación de textos | Precisión | Women's Ecommerce Clothing Reviews |
Precisión (precisión binaria de classification_accuracy_score) |
Robustez | Women's Ecommerce Clothing Reviews |
classification_accuracy_score y delta_classification_accuracy_score |