¿Qué son las evaluaciones del modelo básico? - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué son las evaluaciones del modelo básico?

FMEvalpuede ayudarlo a cuantificar los riesgos del modelo, como el contenido inexacto, tóxico o sesgado. La evaluación le LLM ayuda a cumplir con las directrices internacionales sobre la IA generativa responsable, como la norma ISO42001 sobre sistemas de gestión de la IA y el marco de gestión de riesgos de la NIST IA.

En las siguientes secciones se ofrece una visión general de los métodos compatibles para crear evaluaciones de modelos, ver los resultados de un trabajo de evaluación de modelos y analizar los resultados.

Tareas de evaluación de modelos

En un trabajo de evaluación de modelos, una tarea de evaluación es una tarea que quiera que el modelo lleve a cabo en función de la información de sus peticiones. Puede elegir un tipo de tarea por cada trabajo de evaluación del modelo

Tipos de tareas compatibles en los trabajos de evaluación de modelos
  • Generación abierta: producción de respuestas humanas naturales a un texto que no tiene una estructura predefinida.

  • Resumen de texto: generación de un resumen conciso y condensado, conservando el significado y la información clave que contiene un texto más grande.

  • Respuesta a preguntas: generación de una respuesta relevante y precisa a un mensaje.

  • Clasificación: asignar una categoría, como una etiqueta o una puntuación, al texto en función de su contenido.

  • Personalizado: le permite definir dimensiones de evaluación personalizadas para su trabajo de evaluación de modelos.

Cada tipo de tarea tiene métricas específicas asociadas que puede utilizar en los trabajos de evaluación de modelos automatizados. Para obtener más información sobre las métricas asociadas a los trabajos de evaluación automática de modelos y a los trabajos de evaluación de modelos que utilizan trabajadores humanos, consulteUso de conjuntos de datos rápidos y dimensiones de evaluación disponibles en los trabajos de evaluación de modelos .

Actualización de los parámetros de inferencia

Los parámetros de inferencia son una forma de influir en el resultado de un modelo sin tener que volver a entrenarlo o ajustarlo con precisión.

En el trabajo de evaluación automática del modelo, puede cambiar los nuevos indicadores de temperatura, P superior y máximo del modelo.

Temperatura

Cambia la cantidad de aleatoriedad de las respuestas del modelo. Baje la temperatura predeterminada para disminuir la cantidad de aleatoriedad y auméntela para tener más.

Top P

Durante la inferencia, el modelo genera texto y elige de una lista de palabras para colocar la siguiente palabra. Al actualizar Top P, se cambia el número de palabras de esa lista en función de un porcentaje. Si se reduce la P superior, se obtienen muestras más deterministas, mientras que un valor más alto permite una mayor variabilidad y creatividad en el texto generado.

Máximo de fichas nuevas

Cambia la duración de la respuesta que puede proporcionar el modelo.

Puede actualizar los parámetros de inferencia en Studio después de añadir el modelo a su trabajo de evaluación del modelo.

Trabajos de evaluación de modelos automática

Los trabajos de evaluación automática de modelos utilizan métricas basadas en puntos de referencia para medir las respuestas tóxicas, dañinas o deficientes a sus clientes. Las respuestas de los modelos se puntúan utilizando conjuntos de datos integrados específicos para la tarea o puede especificar su propio conjunto de datos de solicitudes personalizado.

Para crear un trabajo de evaluación automática de modelos, puedes usar Studio o la fmevalbiblioteca. Los trabajos de evaluación automática de modelos admiten el uso de un único modelo. En Studio, puede usar un JumpStart modelo o un JumpStart modelo que haya implementado previamente en un punto final.

Como alternativa, puedes implementar la fmeval biblioteca en tu propia base de código y personalizar el trabajo de evaluación del modelo para tus propios casos de uso.

Para comprender mejor los resultados, utilice el informe generado. El informe incluye visualizaciones y ejemplos. También verá los resultados guardados en el bucket de Amazon S3 especificado al crear el trabajo. Para obtener más información sobre la estructura de los resultados, consulteComprenda los resultados de un trabajo de evaluación automática.

Para usar un modelo que no esté disponible públicamente JumpStart , debe usar la fmeval biblioteca para ejecutar el trabajo de evaluación automática del modelo. Para obtener una lista de JumpStart modelos, consulteModelos de base disponibles.

Plantillas de peticiones

Para garantizar que el JumpStart modelo que seleccione funcione bien en todas las solicitudes, SageMaker Clarify aumenta automáticamente las solicitudes de entrada hasta el formato que mejor se adapte al modelo y a las dimensiones de evaluación que seleccione. Para ver la plantilla de solicitud predeterminada que proporciona Clarify, elija la plantilla de solicitud en la tarjeta para la dimensión de evaluación. Si selecciona, por ejemplo, el tipo de tarea Resumen de texto en la interfaz de usuario, Clarify mostrará de forma predeterminada una tarjeta para cada una de las dimensiones de evaluación asociadas, en este caso, precisión, toxicidad y solidez semántica. En estas tarjetas, puede configurar los conjuntos de datos y las plantillas de solicitudes que Clarify utiliza para medir esa dimensión de evaluación. También puede eliminar cualquier dimensión que no desee utilizar.

Plantillas de mensajes predeterminadas

Clarify proporciona una selección de conjuntos de datos que puede utilizar para medir cada dimensión de evaluación. Puede elegir usar uno o más de estos conjuntos de datos, o puede proporcionar su propio conjunto de datos personalizado. Si usa los conjuntos de datos proporcionados por Clarify, también puede usar las plantillas de mensajes insertadas por Clarify como predeterminadas. Para obtener estas solicitudes predeterminadas, analizamos el formato de respuesta de cada conjunto de datos y determinamos los aumentos de consultas necesarios para lograr el mismo formato de respuesta.

La plantilla de solicitud proporcionada por Clarify también depende del modelo que seleccione. Puede elegir un modelo que esté ajustado para esperar instrucciones en ubicaciones específicas de la solicitud. Por ejemplo, si elige el modelo meta-textgenerationneuron-llama-2-7b, el tipo de tarea Resumen de texto y el Gigaword conjunto de datos, muestra una plantilla de solicitud predeterminada de las siguientes características:

Summarize the following text in one sentence: Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...

Al elegir el modelo de chat de llamas meta-textgenerationneuron-llama-2-7b-f, por otro lado, se muestra la siguiente plantilla de mensajes predeterminada:

[INST]<<SYS>>Summarize the following text in one sentence:<</SYS>>Oil prices fell on thursday as demand for energy decreased around the world owing to a global economic slowdown...[/INST]

Plantillas de mensajes personalizadas

En el cuadro de diálogo de plantillas de mensajes, puede activar o desactivar el soporte automático de plantillas de mensajes de texto que proporciona SageMaker Clarify. Si desactiva la creación automática de plantillas de solicitudes, Clarify proporciona la solicitud predeterminada (como referencia para todos los conjuntos de datos de la misma dimensión de evaluación) que puede modificar. Por ejemplo, si la plantilla de solicitud predeterminada incluye la instrucción Resumir lo siguiente en una oración, puede modificarla para resumir lo siguiente en menos de 100 palabras o cualquier otra instrucción que desee utilizar.

Además, si modifica una solicitud para una dimensión de evaluación, se aplicará la misma solicitud a todos los conjuntos de datos que utilicen esa misma dimensión. Por lo tanto, si decide aplicar la solicitud, resuma el siguiente texto en 17 oraciones para el conjunto de datos Gigaword para medir la toxicidad, se utilizan estas mismas instrucciones para el conjunto de datos Government report para medir la toxicidad. Si quieres usar un indicador diferente para un conjunto de datos diferente (usando el mismo tipo de tarea y dimensión de evaluación), puedes usar los paquetes de python proporcionados porFMEval. Para obtener más información, consulte Personalice su flujo de trabajo mediante la biblioteca fmeval.

ejemplo Ejemplo de una plantilla de solicitud actualizada utilizando la plantilla de solicitud

Imagine un escenario simple en el que tiene un conjunto de datos simple compuesto por solo dos solicitudes y desea evaluarlas utilizandometa-textgenerationneuron-llama-2-7b-f.

{ "model_input": "Is himalaya the highest mountain in the world?", "target_output": "False, Mt. Everest is the highest mountain in the world", "category": "Geography" }, { "model_input": "Is Olympia the capital of Washington?", "target_output": "True", "category": "Capitals" }

Como las indicaciones son pares de preguntas y respuestas, eliges el tipo de tarea Preguntas y respuestas (Q&A).

Si eliges la plantilla de preguntas en Studio, puedes ver cómo SageMaker Clarify formatea las solicitudes para que se ajusten a los requisitos del modelo. meta-textgenerationneuron-llama-2-7b-f JumpStart

[INST]<<SYS>>Respond to the following question. Valid answers are "True" or "False".<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Para este modelo, SageMaker Clarify añadirá las etiquetas y añadirá las etiquetas «[INST]y<<SYS>>» a los mensajes para que contengan el formato correcto. También aumentará su solicitud inicial al agregarla Respond to the following question. Valid answers are "True" or "False". para ayudar al modelo a responder mejor.

Es posible SageMaker que el texto proporcionado por Clarify no sea adecuado para su caso de uso. Para desactivar las plantillas de mensajes predeterminadas, desliza el selector de plantillas de mensajes predeterminadas del conjunto de datos a la posición Desactivado.

Puedes editar la plantilla de mensaje para que se ajuste a tu caso de uso. Por ejemplo, puede solicitar una respuesta breve en lugar de un formato de respuesta verdadero o falso, como se muestra en la siguiente línea:

[INST]<<SYS>>Respond to the following question with a short response.<<SYS>>Is himalaya the highest mountain in the world?[/INST]

Ahora, todos los conjuntos de datos de solicitudes integradas o personalizadas de la dimensión de evaluación especificada utilizarán la plantilla de solicitud que haya especificado.

Modele trabajos de evaluación que utilicen trabajadores humanos

También puede emplear trabajadores humanos para evaluar manualmente las respuestas del modelo para determinar dimensiones más subjetivas, como la utilidad o el estilo. Para crear un trabajo de evaluación de modelos que utilice trabajadores humanos, debe usar Studio.

En un trabajo de evaluación de modelos que utilice trabajadores humanos, puede comparar las respuestas de hasta dos JumpStart modelos. Si lo desea, también puede especificar las respuestas de modelos externos a AWS. Todos los trabajos de evaluación de modelos que utilizan trabajadores humanos requieren que cree un conjunto de datos de solicitudes personalizado y lo almacene en Amazon S3. Para obtener más información sobre cómo crear datos de solicitudes personalizadas, consulteCreación de un trabajo de evaluación de modelos con trabajadores humanos.

En Studio, puede definir los criterios que su personal humano utilizará para evaluar las respuestas de los modelos. También puedes documentar las instrucciones de evaluación mediante una plantilla disponible en Studio. Además, puedes crear un equipo de trabajo en Studio. El equipo de trabajo está formado por personas que quieres que participen en tu trabajo de evaluación de modelos.