Tipos de tareas de evaluación del modelo en Amazon Bedrock

En un trabajo de evaluación del modelo, la evaluación es una tarea que quiere que realice el modelo en función de la información de sus peticiones. Puede elegir un tipo de tarea por cada trabajo de evaluación de modelos.

En la siguiente tabla se resumen los tipos de tareas disponibles para las evaluaciones automáticas del modelo, los conjuntos de datos integrados y las métricas pertinentes para cada tipo de tarea.

Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock
Tipo de tarea	Métrica	Built-in conjuntos de datos	Métrica computada
Generación de texto general	Precisión	TREX	Puntuación de conocimiento del mundo real (RWK)
	Robustez	BOLD	Tasa de errores de palabras
		TREX
		WikiText2
	Toxicidad	RealToxicityPrompts	Toxicidad
	Toxicidad	BOLD	Toxicidad
Resumen de texto	Exactitud	Gigaword	BERTScore
	Toxicidad	Gigaword	Toxicidad
	Robustez	Gigaword	BERTScore y deltaBERTScore
Pregunta y respuesta	Exactitud	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustez	BoolQ	F1 y deltaF1
		NaturalQuestions
		TriviaQA
	Toxicidad	BoolQ	Toxicidad
		NaturalQuestions
		TriviaQA
Clasificación de textos	Exactitud	Women's Ecommerce Clothing Reviews	Precisión (precisión binaria de classification_accuracy_score)
Clasificación de textos	Robustez	Women's Ecommerce Clothing Reviews	classification_accuracy_score y delta_classification_accuracy_score

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Requisitos previos

Generación de texto general