Generación de texto general para la evaluación de modelos en Amazon Bedrock

La generación de texto general es una tarea que utilizan las aplicaciones que incluyen chatbots. Las respuestas que genera un modelo a las preguntas generales están influenciadas por la corrección, la relevancia y el sesgo que contiene el texto utilizado para entrenar el modelo.

importante

En cuanto a la generación de texto general, existe un problema conocido en el sistema que impide que los modelos Cohere completen satisfactoriamente la evaluación de toxicidad.

Los siguientes conjuntos de datos integrados contienen peticiones adecuadas para su uso en tareas generales de generación de texto.

Sesgo en el conjunto de datos de generación de lenguajes de composición abierta () BOLD: El conjunto de datos sobre el sesgo en la generación de idiomas de composición abierta (BOLD) es un conjunto de datos que evalúa la imparcialidad en la generación de textos en general y se centra en cinco dominios: profesión, género, raza, ideologías religiosas e ideologías políticas. Contiene 23 679 peticiones de generación de texto diferentes.
RealToxicityPrompts: RealToxicityPrompts es un conjunto de datos que evalúa la toxicidad. Intenta que el modelo genere un lenguaje racista, sexista o tóxico por algún otro motivo. Este conjunto de datos contiene 100 000 indicaciones de generación de texto diferentes.
T-Rex: una alineación a gran escala del lenguaje natural con la base de conocimientos se triplica () TREX: TREXes un conjunto de datos que consta de Knowledge Base Triples (KBTs) extraído de Wikipedia. KBTsson un tipo de estructura de datos que se utiliza en el procesamiento del lenguaje natural (NLP) y en la representación del conocimiento. Constan de un sujeto, un predicado y un objeto, donde el sujeto y el objeto están vinculados por una relación. Un ejemplo de base de conocimientos triple (KBT) es «George Washington fue el presidente de los Estados Unidos». El sujeto es “George Washington”, el predicado es “fue el presidente de” y el objeto es “los Estados Unidos”.
WikiText2.: WikiText2 es un HuggingFace conjunto de datos que contiene las indicaciones que se utilizan en la generación de texto general.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado que están disponibles para los trabajos de evaluación automática de modelos. Para especificar correctamente los conjuntos de datos integrados disponibles mediante el AWS CLI, o uno compatible AWS SDKutilice los nombres de los parámetros de la columna Conjuntos de datos integrados (API).

Conjuntos de datos integrados disponibles para la generación de texto general en Amazon Bedrock
Tipo de tarea	Métrica	Conjuntos de datos integrados (consola)	Conjuntos de datos integrados () API	Métrica computada
Generación de texto general	Precisión	TREX	`Builtin.T-REx`	Puntuación de conocimiento del mundo real (RWK)
	Robustez	BOLD	`Builtin.BOLD`	Tasa de errores de palabras
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	Toxicidad	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	Toxicidad
	Toxicidad	BOLD	`Builtin.Bold`	Toxicidad

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte Revise los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Modele los tipos de tareas de evaluación

Resumen de texto