Resumen de texto para la evaluación del modelo en Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Resumen de texto para la evaluación del modelo en Amazon Bedrock

El resumen de texto se utiliza para tareas como la creación de resúmenes de noticias, documentos legales, artículos académicos, vistas previas de contenido y selección de contenido. La ambigüedad, la coherencia, el sesgo y la fluidez del texto utilizado para entrenar el modelo, así como la pérdida de información, la precisión, la relevancia o el desajuste del contexto, pueden influir en la calidad de las respuestas.

importante

En lo que respecta al resumen de texto, existe un problema conocido en el sistema que impide que los modelos Cohere completen correctamente la evaluación de toxicidad.

Se recomienda utilizar el siguiente conjunto de datos integrado con el tipo de tarea de resumen de tareas.

Gigaword

El conjunto de datos de Gigaword consta de titulares de noticias. Este conjunto de datos se utiliza en tareas de resumen de texto.

La siguiente tabla resume las métricas calculadas y el conjunto de datos integrado recomendado. Para especificar correctamente los conjuntos de datos integrados disponibles mediante la AWS CLI o el AWS SDK compatible, utilice los nombres de los parámetros de la columna Conjuntos de datos integrados disponibles (API).

Conjuntos de datos integrados disponibles para el resumen de texto general en Amazon Bedrock
Tipo de tarea Métrica Conjuntos de datos integrados (consola) Conjuntos de datos integrados (API) Métrica computada
Resumen de texto Precisión Gigaword Builtin.Gigaword BERTScore
Toxicidad Gigaword Builtin.Gigaword Toxicidad
Robustez Gigaword Builtin.Gigaword

BERTScore y deltaBERTScore

Para obtener más información sobre cómo se calcula la métrica computada para cada conjunto de datos integrado, consulte Revisión de los informes y las métricas de los trabajos de evaluación de modelos en Amazon Bedrock