Cree un trabajo de evaluación automática de modelos en Studio - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree un trabajo de evaluación automática de modelos en Studio

El asistente disponible en Studio le guía para elegir un modelo para evaluar, seleccionar un tipo de tarea, elegir métricas y conjuntos de datos y configurar los recursos necesarios. En los siguientes temas, se muestra cómo formatear un conjunto de datos de entrada personalizado opcional, configurar el entorno y crear el trabajo de evaluación del modelo en Studio.

Si utiliza un conjunto de datos integrado para evaluar el modelo en Studio, el conjunto de datos tendrá el formato correcto. Para usar tu propio conjunto de datos de indicadores personalizado, debe ser un jsonlines archivo en el que cada línea sea un JSON objeto válido. Cada JSON objeto debe contener un único mensaje.

Para garantizar que el JumpStart modelo que seleccione funcione correctamente, SageMaker Clarify formatea automáticamente todos los conjuntos de datos de solicitudes para que estén en el formato que mejor se adapte a las dimensiones de evaluación del modelo que seleccione. En el caso de los conjuntos de datos de solicitudes integrados SageMaker , Clarify también ampliará su solicitud con texto instructivo adicional. Para ver cómo SageMaker Clarify modificará las solicitudes, elija una plantilla de solicitudes en una de las dimensiones de evaluación que haya agregado al trabajo de evaluación del modelo. Para ver un ejemplo de cómo se puede modificar una plantilla de solicitud, consulte Ejemplo de plantilla de solicitud.

El conmutador le permite activar o desactivar el soporte de creación automática de plantillas de mensajes que SageMaker Clarify proporciona para los conjuntos de datos integrados. Al desactivar las plantillas de solicitudes automáticas, puede especificar sus propias plantillas de solicitudes personalizadas que se aplicarán a todas las solicitudes de su conjunto de datos.

Para saber qué claves están disponibles para un conjunto de datos personalizado en la interfaz de usuario, consulta las siguientes listas de tareas.

  • model_input— Necesario para indicar la entrada de las siguientes tareas.

    • La pregunta a la que debe responder su modelo en tareas abiertas de generación, toxicidad y precisión.

    • La pregunta a la que debe responder su modelo en las tareas de respuesta a preguntas y conocimiento fáctico.

    • El texto que su modelo debe resumir en las tareas de resumen de texto.

    • El texto que el modelo debe clasificar en las tareas de clasificación.

    • El texto que desea que su modelo altere en las tareas de robustez semántica.

  • target_output— Necesario para indicar la respuesta con la que se evalúa su modelo para las siguientes tareas.

    • La respuesta para las tareas de respuesta a preguntas, precisión, solidez semántica y evaluación basada en hechos.

    • Para las tareas de precisión y solidez semántica, separe las respuestas aceptables con un. <OR> La evaluación acepta como correcta cualquiera de las respuestas separadas por una coma. Como ejemplotarget_output="UK<OR>England<OR>United Kingdom", úselo si quiere aceptar una UK o England o United Kingdom como respuestas aceptables.

  • (Opcional)category: genera los puntajes de evaluación informados para cada categoría.

  • sent_less_input— Necesario para indicar el mensaje que contiene menos sesgos para las tareas rápidas de estereotipado.

  • sent_more_input— Necesario para indicar el mensaje que contiene más sesgos para las tareas rápidas de estereotipado.

Para evaluar el conocimiento basado en los hechos es necesario formular la pregunta y comparar la respuesta con la respuesta del modelo. Use la clave model_input con el valor contenido en la pregunta y la clave target_output con el valor contenido en la respuesta de la siguiente manera:

{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}

El ejemplo anterior es un JSON objeto válido único que constituye un registro en un archivo jsonlines de entrada. Cada JSON objeto se envía al modelo como una solicitud. Para realizar varias solicitudes, incluya varias líneas. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave category opcional para la evaluación.

{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"} {"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"} {"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}

Si evalúa el algoritmo en la interfaz de usuario, se establecen los siguientes valores predeterminados para el conjunto de datos de entrada:

  • El número de registros que utiliza la evaluación es fijo. El algoritmo toma muestras de este número de solicitudes de forma aleatoria a partir del conjunto de datos de entrada.

    • Para cambiar este número: usa la fmeval biblioteca tal y como se describe en Personaliza tu flujo de trabajo con la fmeval biblioteca y establece el parámetro en num_records función del número de muestras que desees o -1 para especificar todo el conjunto de datos. El número predeterminado de registros que se evalúan es 100 para tareas de precisión, creación rápida de estereotipos, toxicidad, clasificación y solidez semántica. El número predeterminado de registros para una tarea de conocimiento fáctico es. 300

  • El delimitador de salida objetivo, tal como se describió anteriormente en el target_output parámetro, se establece <OR> en la interfaz de usuario.

    • Para separar las respuestas aceptables mediante otro delimitador: utilice la fmeval biblioteca tal y como se describe en Personalice su flujo de trabajo con la fmeval biblioteca y target_output_delimiter defina el parámetro con el delimitador que desee.

  • Debe utilizar un modelo de JumpStart lenguaje basado en texto que esté disponible para la evaluación del modelo. Estos modelos tienen varios parámetros de configuración de entrada de datos que se transfieren automáticamente al FMeval proceso.

    • Para usar otro tipo de modelo: utilice la fmeval biblioteca para definir la configuración de datos del conjunto de datos de entrada.

Para ejecutar una evaluación automática de su modelo de lenguaje grande (LLM), debe configurar su entorno para que tenga los permisos correctos para ejecutar una evaluación. A continuación, puede utilizar la interfaz de usuario como guía por los pasos del flujo de trabajo y realizar una evaluación. En las siguientes secciones, se muestra cómo utilizar la interfaz de usuario para ejecutar una evaluación automática.

Requisitos previos
  • Para ejecutar una evaluación de modelos en una interfaz de usuario de Studio, tu rol AWS Identity and Access Management (IAM) y cualquier conjunto de datos de entrada deben tener los permisos correctos. Si no tiene un SageMaker dominio o un IAM rol, siga los pasos que se indican. Guía para configurar Amazon SageMaker

Para configurar los permisos de su bucket de S3

Una vez creados el dominio y el rol, siga los siguientes pasos para agregar los permisos necesarios para evaluar su modelo.

  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En el panel de navegación, S3 ingresa a la barra de búsqueda en la parte superior de la página.

  3. Elija S3 en Servicios.

  4. Seleccione Buckets en el panel de navegación.

  5. En la sección Depósitos de uso general, en Nombre, elija el nombre del depósito de Amazon S3 que quiere usar para almacenar su conjunto de datos de solicitudes personalizado y dónde quiere que se guarden los resultados del trabajo de evaluación del modelo. El bucket de Amazon S3 debe estar en el mismo lugar Región de AWS que la instancia de Studio. Si no tiene un bucket de Amazon S3, haga lo siguiente.

    1. Seleccione Crear depósito para abrir una nueva página de creación de depósito.

    2. En la sección Configuración general, en AWS Región, seleccione la AWS región en la que se encuentra el modelo de cimentación.

    3. Asigne un nombre a su depósito de S3 en el cuadro de entrada situado debajo del nombre del depósito.

    4. Acepte todas las opciones predeterminadas.

    5. Selecciona Crear depósito.

    6. En la sección Depósitos de uso general, en Nombre, selecciona el nombre del depósito de S3 que has creado.

  6. Elija la pestaña Permisos.

  7. Desplázate hasta la sección Uso compartido de recursos entre orígenes (CORS) en la parte inferior de la ventana. Elija Editar.

  8. Para añadir los CORS permisos a tu depósito, copia el siguiente código en el cuadro de entrada.

    [ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
  9. Elija Guardar cambios.

Para añadir permisos a tu IAM política
  1. En la barra de búsqueda de la parte superior de la página, ingresaIAM.

  2. En Servicios, seleccione Identity and Access Management (IAM).

  3. Elija Políticas en el panel de navegación.

  4. Elija Crear política. Cuando se abra el editor de políticas, elija JSON.

  5. Elija Next (Siguiente).

  6. Asegúrese de que los siguientes permisos aparezcan en el editor de políticas. También puede copiar y pegar lo siguiente en el editor de políticas.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
  7. Elija Next (Siguiente).

  8. Introduzca un nombre de política en la sección de detalles de la política, en Nombre de la política. También puede introducir una descripción opcional. Buscará el nombre de esta política cuando la asigne a un rol.

  9. Elija Crear política.

Para añadir permisos a su IAM función
  1. Seleccione Roles en el panel de navegación. Introduzca el nombre del rol que quiere usar.

  2. Seleccione el nombre del rol en Nombre del rol. La ventana principal cambia para mostrar información sobre su función.

  3. En la sección Políticas de permisos, selecciona la flecha hacia abajo situada junto a Añadir permisos.

  4. De las opciones que aparecen, selecciona Adjuntar políticas.

  5. En la lista de políticas que aparece, busque la política que creó en el paso 5. Selecciona la casilla situada junto al nombre de la póliza.

  6. Selecciona la flecha hacia abajo situada junto a Acciones.

  7. De las opciones que aparecen, selecciona Adjuntar.

  8. Busque el nombre del rol que creó. Seleccione la casilla de verificación situada junto al nombre.

  9. Elija Añadir permisos. Un banner en la parte superior de la página debe indicar que la política se ha asignado correctamente a la función.

  • .

Al crear un trabajo de evaluación automática de modelos, puede elegir entre los JumpStart modelos basados en texto disponibles o puede usar un JumpStart modelo basado en texto que haya implementado anteriormente en un punto final.

Para crear un trabajo de evaluación automática del modelo, utilice el siguiente procedimiento.

Para iniciar un trabajo de evaluación automática de modelos en Studio.
  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En la barra de búsqueda situada en la parte superior de la página, introduceSageMaker.

  3. En Servicios, selecciona Amazon SageMaker.

  4. Selecciona Studio en el panel de navegación.

  5. Elige tu dominio en la sección Cómo empezar, después de expandir la flecha hacia abajo situada debajo de Seleccionar dominio.

  6. Elige tu perfil de usuario en la sección Cómo empezar después de expandir la flecha hacia abajo situada debajo de Seleccionar perfil de usuario.

  7. Selecciona Open Studio para abrir la página de inicio de Studio.

  8. Seleccione Trabajos en el panel de navegación principal.

  9. A continuación, elija Evaluación del modelo.

Para configurar un trabajo de evaluación
  1. A continuación, elija Evaluar un modelo,.

  2. En el paso 1: especifique los detalles del trabajo, haga lo siguiente:

    1. Introduzca el nombre de la evaluación del modelo. Este nombre le ayuda a identificar su trabajo de evaluación de modelos una vez enviado.

    2. Introduzca una descripción para añadir más contexto al nombre.

    3. Elija Next (Siguiente).

  3. En el paso 2: configurar la evaluación, haga lo siguiente:

    1. En Tipo de evaluación, seleccione Automático.

    2. A continuación, elija Añadir modelo a la evaluación

    3. En el modo Añadir modelo, puede optar por utilizar un modelo básico de Jumpstart previamente entrenado o SageMaker un punto final. Si ya ha implementado el modelo, elija un SageMaker punto de conexión; de lo contrario, elija un JumpStart modelo básico de Jumpstart previamente entrenado.

    4. A continuación, elija Guardar.

    5. (Opcional) Tras añadir el modelo, elija la plantilla de solicitud para ver el formato de entrada esperado para las solicitudes en función del modelo que haya seleccionado. Para obtener información sobre cómo configurar una plantilla de mensajes para un conjunto de datos, consultePlantillas de peticiones.

      • Para usar la plantilla de solicitud predeterminada, complete los siguientes pasos:

        1. Active la opción Usar las plantillas de solicitud predeterminadas proporcionadas por los conjuntos de datos.

        2. (Opcional) Para cada conjunto de datos, revisa la solicitud proporcionada por Clarify.

        3. Seleccione Guardar.

      • Para usar una plantilla de mensaje personalizada, complete los siguientes pasos:

        1. Desactive la opción Usar las plantillas de solicitudes predeterminadas proporcionadas por los conjuntos de datos.

        2. Si Clarify muestra un mensaje predeterminado, puede personalizarlo o eliminarlo e introducir el suyo propio. Debe incluir la $model_input variable en la plantilla de solicitud.

        3. Seleccione Guardar.

    6. A continuación, en Tipo de tarea, elija un tipo de tarea.

      Para obtener más información sobre los tipos de tareas y las dimensiones de evaluación asociadas, consulte la evaluación automática en Uso de conjuntos de datos rápidos y dimensiones de evaluación disponibles en los trabajos de evaluación de modelos .

    7. En la sección Métricas de evaluación, elija una dimensión de evaluación. El cuadro de texto situado debajo de la descripción contiene un contexto adicional sobre la dimensión.

      Tras seleccionar una tarea, las métricas asociadas a la tarea aparecen en Métricas. En esta sección, haga lo siguiente.

    8. Seleccione una dimensión de evaluación en la flecha hacia abajo situada en Dimensión de evaluación.

    9. Elija un conjunto de datos de evaluación. Puede elegir usar su propio conjunto de datos o usar un conjunto de datos integrado. Si desea usar su propio conjunto de datos para evaluar el modelo, debe estar formateado de manera que FMEval pueda usarlo. También debe estar ubicado en un depósito de S3 que tenga CORS los permisos a los que se hizo referencia en la Configure su entorno sección anterior. Para obtener más información sobre cómo formatear un conjunto de datos personalizado, consulteUsa un conjunto de datos de entrada personalizado.

    10. Introduzca una ubicación de depósito de S3 en la que desee guardar los resultados de la evaluación de salida. Este archivo está en formato jsonlines (.jsonl).

    11. Configure el procesador en la sección Configuración del procesador mediante los siguientes parámetros:

      • Utilice el recuento de instancias para especificar el número de instancias informáticas que desea utilizar para ejecutar el modelo. Si usa más de una 1 instancia, su modelo se ejecuta en instancias paralelas.

      • Use el tipo de instancia para elegir el tipo de instancia de procesamiento que quiere usar para ejecutar su modelo. Para obtener más información sobre los tipos de instancias, consulteTipos de instancias disponibles para su uso con Studio Classic.

      • Usa la KMS clave de volumen para especificar tu clave de cifrado AWS Key Management Service (AWS KMS). SageMaker utiliza su AWS KMS clave para cifrar el tráfico entrante del modelo y de su bucket de Amazon S3. Para obtener más información sobre las claves, consulte AWS Key Management Service.

      • Utilice la KMSclave de salida para especificar la clave de AWS KMS cifrado para el tráfico saliente.

      • Utilice IAMRole para especificar el acceso y los permisos del procesador predeterminado. Introduzca el IAM rol que configuró en Configure su entorno

    12. Tras especificar el modelo y los criterios, elija Siguiente. La ventana principal pasa al paso 5: Revisar y guardar.

Revise y ejecute su trabajo de evaluación
  1. Revise todos los parámetros, el modelo y los datos que seleccionó para la evaluación.

  2. Elija Crear recurso para ejecutar la evaluación.

  3. Para comprobar el estado de su puesto, vaya a la parte superior de la sección de evaluaciones de modelos de la página.