Comience con las evaluaciones de modelos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comience con las evaluaciones de modelos

Un modelo de lenguaje grande (LLM) es un modelo de aprendizaje automático que puede analizar y generar texto en lenguaje natural. Si desea evaluar unLLM, SageMaker proporciona las tres opciones siguientes que puede elegir:

  • Configura evaluaciones manuales para una plantilla humana con Studio.

  • Evalúe su modelo con un algoritmo mediante Studio.

  • Evalúe automáticamente su modelo con un flujo de trabajo personalizado mediante la fmeval biblioteca.

Puedes usar un algoritmo para evaluar automáticamente tu modelo base o pedir a un equipo de trabajo humano que evalúe las respuestas de los modelos.

Los equipos de trabajo humano pueden evaluar y comparar hasta dos modelos simultáneamente utilizando métricas que indican la preferencia por una respuesta sobre otra. El flujo de trabajo, las métricas y las instrucciones para una evaluación humana se pueden adaptar a un caso de uso particular. Los seres humanos también pueden proporcionar una evaluación más refinada que una evaluación algorítmica.

También puedes usar un algoritmo para evaluar tu rendimiento LLM mediante puntos de referencia para puntuar rápidamente las respuestas de tus modelos en Studio. Studio proporciona un flujo de trabajo guiado para evaluar las respuestas de un JumpStart modelo mediante métricas predefinidas. Estas métricas son específicas de las tareas generativas de IA. Este flujo guiado utiliza conjuntos de datos integrados o personalizados para evaluarlos. LLM

Como alternativa, puedes usar la fmeval biblioteca para crear un flujo de trabajo más personalizado mediante evaluaciones automáticas que las que están disponibles en Studio. Utilización Python Tanto el código como la fmeval biblioteca, puedes evaluar cualquier tipo de código basado en textoLLM, incluidos los modelos que se hayan creado fuera de él. JumpStart

En los temas siguientes se ofrece una visión general de las evaluaciones de los modelos básicos, un resumen de los flujos de trabajo automáticos y humanos de la Evaluación del Modelo Fundamental (FMEval), cómo ejecutarlas y cómo ver un informe de análisis de los resultados. El tema sobre la evaluación automática muestra cómo configurar y ejecutar tanto una evaluación inicial como una personalizada.

Temas