Evaluación de modelos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evaluación de modelos

Amazon Bedrock es compatible con los trabajos de evaluación de modelos. Los resultados de un trabajo de evaluación de modelos le permiten comparar los resultados del modelo y, a continuación, elegir el modelo que mejor se adapte a sus aplicaciones de IA generativa descendente.

Los trabajos de evaluación de modelos respaldan los casos de uso habituales de modelos lingüísticos (LLM) de gran tamaño, como la generación de textos, la clasificación de textos, la respuesta a preguntas y el resumen de textos.

Para evaluar el rendimiento de un modelo para los trabajos de evaluación automática de modelos, puede utilizar conjuntos de datos de solicitudes integrados o sus propios conjuntos de datos de solicitudes. Para los trabajos de evaluación de modelos que utilizan trabajadores, debe tener su propio conjunto de datos.

Puede optar por crear un trabajo de evaluación de modelos automático o un trabajo de evaluación de modelos en el que se use intervención humana.

Descripción general: trabajos de evaluación de modelos automáticos

Los trabajos de evaluación de modelos automáticos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.

Descripción general: trabajos de evaluación de modelos con trabajadores humanos

Los trabajos de evaluación de modelos en los que intervienen trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación de modelos. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.

En los temas siguientes, se describen las tareas de evaluación de modelos disponibles y los tipos de métricas que puede utilizar. También se describen los conjuntos de datos integrados disponibles y cómo especificar su propio conjunto de datos.