Utilice conjuntos de datos rápidos integrados para la evaluación automática de modelos en Amazon Bedrock

Amazon Bedrock proporciona varios conjuntos de datos de peticiones integrados que puede utilizar en un trabajo de evaluación de modelos automática. Cada conjunto de datos integrado se basa en un conjunto de datos de código abierto. Hemos muestreado aleatoriamente cada conjunto de datos de código abierto para incluir solo 100 solicitudes.

Al crear un trabajo de evaluación de modelos automática y elegir un Tipo de tarea, Amazon Bedrock le proporciona una lista de métricas recomendadas. Para cada métrica, Amazon Bedrock también proporciona conjuntos de datos integrados recomendados. Para obtener más información sobre los tipos de tareas disponibles, consulte Tipos de tareas de evaluación de modelos en Amazon Bedrock.

Sesgo en el conjunto de datos de generación de lenguajes de composición abierta () BOLD: El conjunto de datos sobre el sesgo en la generación de idiomas de composición abierta (BOLD) es un conjunto de datos que evalúa la imparcialidad en la generación de textos en general y se centra en cinco dominios: profesión, género, raza, ideologías religiosas e ideologías políticas. Contiene 23 679 peticiones de generación de texto diferentes.
RealToxicityPrompts: RealToxicityPrompts es un conjunto de datos que evalúa la toxicidad. Intenta que el modelo genere un lenguaje racista, sexista o tóxico por algún otro motivo. Este conjunto de datos contiene 100 000 indicaciones de generación de texto diferentes.
T-Rex: se triplica la alineación a gran escala del lenguaje natural con la base de conocimientos () TREX: TREXes un conjunto de datos que consta de Knowledge Base Triples (KBTs) extraído de Wikipedia. KBTsson un tipo de estructura de datos que se utiliza en el procesamiento del lenguaje natural (NLP) y en la representación del conocimiento. Constan de un sujeto, un predicado y un objeto, donde el sujeto y el objeto están vinculados por una relación. Un ejemplo de base de conocimientos triple (KBT) es «George Washington fue el presidente de los Estados Unidos». El sujeto es “George Washington”, el predicado es “fue el presidente de” y el objeto es “los Estados Unidos”.
WikiText2.: WikiText2 es un HuggingFace conjunto de datos que contiene las indicaciones que se utilizan en la generación de texto general.
Gigaword: El conjunto de datos de Gigaword consta de titulares de artículos de noticias. Este conjunto de datos se utiliza en tareas de resumen de texto.
BoolQ: BoolQ es un conjunto de datos que consta de pares de preguntas y respuestas de tipo sí/no. La petición contiene un pasaje corto y luego una pregunta sobre el pasaje. Se recomienda utilizar este conjunto de datos con tareas de tipo preguntas y respuestas.
Preguntas naturales: La pregunta natural es un conjunto de datos que consta de preguntas de usuarios reales enviadas a Google búsqueda.
TriviaQA: TriviaQA es un conjunto de datos que contiene más de 650 000. question-answer-evidence-triples Este conjunto de datos se utiliza en tareas de preguntas y respuestas.
Women's E-Commerce Clothing Reviews: Women's E-Commerce Clothing Reviews es un conjunto de datos que contiene reseñas de ropa escritas por clientes. Este conjunto de datos se utiliza en tareas de clasificación de textos.

En la siguiente tabla, puede ver la lista de conjuntos de datos disponibles agrupados por tipo de tarea. Para obtener más información sobre cómo se calculan las métricas automáticas, consulte Revise las métricas de un trabajo de evaluación de modelos automatizado en Amazon Bedrock (consola).

Conjuntos de datos integrados disponibles para trabajos de evaluación automática de modelos en Amazon Bedrock
Tipo de tarea	Métrica	Conjuntos de datos integrados	Métrica computada
Generación de texto general	Precisión	TREX	Puntuación de conocimiento del mundo real () RWK
	Robustez	BOLD	Tasa de errores de palabras
		TREX
		WikiText2
	Toxicidad	RealToxicityPrompts	Toxicidad
	Toxicidad	BOLD	Toxicidad
Resumen de texto	Precisión	Gigaword	BERTScore
	Toxicidad	Gigaword	Toxicidad
	Robustez	Gigaword	BERTScorey deltaBERTScore
Pregunta y respuesta	Precisión	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	Robustez	BoolQ	F1 y deltaF1
		NaturalQuestions
		TriviaQA
	Toxicidad	BoolQ	Toxicidad
		NaturalQuestions
		TriviaQA
Clasificación de textos	Precisión	Women's Ecommerce Clothing Reviews	Precisión (precisión binaria de classification_accuracy_score)
Clasificación de textos	Robustez	Women's Ecommerce Clothing Reviews	classification_accuracy_score y delta_classification_accuracy_score

Para obtener más información sobre los requisitos para crear conjuntos de datos de peticiones personalizados y ejemplos de ellos, consulte Utilice un conjunto de datos de solicitudes personalizado para la evaluación de modelos en Amazon Bedrock.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conjuntos de datos rápidos para la evaluación del modelo

Conjuntos de datos de peticiones personalizados