Creación de un trabajo de evaluación de modelos con trabajadores humanos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un trabajo de evaluación de modelos con trabajadores humanos

En un trabajo de evaluación de modelos en el que se utilizan trabajadores humanos, puede evaluar y comparar las respuestas de hasta dos modelos. Puede elegir de entre una lista de métricas recomendadas o usar métricas que usted mismo defina. Puede tener un máximo de 20 trabajos de evaluación de modelos que utilicen trabajadores humanos en curso en su Cuenta de AWS plantilla Región de AWS.

Para cada métrica que utilice, debe definir un Método de calificación. El método de calificación define la forma en que sus trabajadores humanos evaluarán las respuestas que obtengan de los modelos que haya seleccionado. Para obtener más información sobre los distintos métodos de calificación disponibles y sobre cómo crear instrucciones de alta calidad para los trabajadores, consulteCreación y gestión de equipos de trabajo en Amazon Bedrock.

Requisitos previos

Antes de completar el siguiente procedimiento, debe hacer lo siguiente: Los trabajos de evaluación de modelos creados en la consola de Amazon Bedrock requieren que CORS los permisos se configuren en los buckets de Amazon S3 especificados al crear el trabajo.

Para los trabajos de evaluación de modelos que utilizan trabajadores humanos, no se admiten los conjuntos de datos integrados. Para obtener más información sobre la creación de conjuntos de datos de solicitudes personalizadas, consulte. Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos

  1. Debe tener acceso a los modelos en Amazon Bedrock.

  2. Debe tener un rol de servicio de Amazon Bedrock. Si aún no ha creado un rol de servicio, puede crearlo en la consola de Amazon Bedrock mientras configura su trabajo de evaluación de modelos. La política adjunta debe permitir el acceso a todos los depósitos de S3 utilizados en el trabajo de evaluación del modelo y a todos ARNs los modelos especificados en el trabajo. También debe tener las sagemaker:DescribeFlowDefinition SageMaker IAM acciones sagemaker:StartHumanLoop sagemaker:DescribeHumanLoop y sagemaker:StopHumanLoop las acciones definidas en la política. El rol de servicio también debe tener Amazon Bedrock definido como entidad principal de servicio en la política de confianza del rol. Para obtener más información, consulte Roles de servicio.

  3. Debes tener un rol de SageMaker servicio de Amazon. Si aún no ha creado un rol de servicio, puede crearlo en la consola de Amazon Bedrock mientras configura su trabajo de evaluación de modelos. La política adjunta debe permitir el acceso a los siguientes recursos y IAM acciones. Cualquier bucket de S3 utilizado en el trabajo de evaluación de modelos. La política de confianza del rol debe estar SageMaker definida como la principal del servicio. Para obtener más información, consulte Permisos necesarios.

  4. El usuario, grupo o rol que accede a la consola de Amazon Bedrock debe tener los permisos necesarios para acceder a los buckets de Amazon S3 necesarios.

  5. Se deben añadir los CORS permisos necesarios al bucket de Amazon S3 de salida y a cualquier depósito de conjunto de datos de solicitudes personalizado. Para obtener más información sobre los CORS permisos necesarios, consulteSe requiere el permiso de intercambio de recursos entre orígenes (CORS) en los buckets de S3.

Tutorial: Creación de modelos de evaluación que utilicen trabajadores humanos

Utilice el siguiente tutorial para crear un trabajo de evaluación modelo que utilice trabajadores humanos.

Visualización de los resultados del trabajo de evaluación de modelos mediante la consola de Amazon Bedrock

Cuando finaliza un trabajo de evaluación de modelos, los resultados se almacenan en el bucket de Amazon S3 que haya especificado. Si modifica la ubicación de los resultados de alguna manera, la tarjeta del informe de la evaluación de modelos ya no estará visible en la consola.

Para crear un trabajo de evaluación de modelos con trabajadores humanos:
  1. Abre la consola Amazon Bedrock: home https://console.aws.amazon.com/bedrock/

  2. En el panel de navegación, elija Evaluación de modelo.

  3. En la tarjeta Crea una evaluación, en Humano: trae tu propio equipo, elige Crear una evaluación basada en humanos.

  4. En la página Especificar detalles del proyecto, haga lo siguiente:

    1. Nombre de la evaluación: asigne al trabajo de evaluación de modelos un nombre que describa el trabajo. Este nombre se muestra en su lista de trabajos de evaluación de modelos. El nombre debe ser único Cuenta de AWS en su nombre. Región de AWS

    2. Descripción (opcional): proporcione una descripción opcional.

  5. A continuación, elija Siguiente.

  6. En la página Configure la evaluación, proporcione lo siguiente.

    1. Modelos: puede elegir hasta dos modelos que desee utilizar en el trabajo de evaluación de modelos.

      Para obtener más información sobre los modelos disponibles en Amazon Bedrock, consulte Gestione el acceso a los modelos básicos de Amazon Bedrock.

    2. (Opcional) Para cambiar la configuración de inferencia de los modelos seleccionados, elija actualizar.

      Al cambiar la configuración de inferencia, se cambian las respuestas generadas por los modelos seleccionados. Para obtener más información sobre los parámetros de inferencia disponibles, consulte Parámetros de inferencia para modelos fundacionales.

    3. Tipo de tarea: elija el tipo de tarea que desea que el modelo intente realizar durante el trabajo de evaluación de modelos. Todas las instrucciones del modelo deben incluirse en las propias peticiones. El tipo de tarea no controla las respuestas del modelo.

    4. Métricas de evaluación: la lista de métricas recomendadas cambia en función de la tarea que seleccione. Para cada métrica recomendada, debe seleccionar un Método de calificación. Puede tener un máximo de 10 métricas de evaluación por trabajo de evaluación de modelos.

    5. (Opcional) Elija Agregar nueva métrica para agregar una nueva métrica. Debe definir la Métrica, la Descripción y el Método de calificación.

    6. En la tarjeta de conjuntos de datos, debe proporcionar lo siguiente.

      1. Elija un conjunto de datos de solicitudes: especifique el S3 URI del archivo de conjunto de datos de solicitudes o elija Buscar S3 para ver los depósitos de S3 disponibles. Puede tener un máximo de 1000 peticiones en un conjunto de datos de peticiones personalizado.

      2. Destino de los resultados de la evaluación: debe especificar el S3 URI del directorio en el que desea guardar los resultados del trabajo de evaluación del modelo o elegir Browse S3 para ver los depósitos de S3 disponibles.

    7. Clave (opcional): proporcione ARN la AWS KMS clave administrada por el cliente que desee utilizar para cifrar el trabajo de evaluación del modelo.

    8. En la tarjeta de IAMroles — Permisos de Amazon Bedrock, debes hacer lo siguiente. Para obtener más información sobre los permisos necesarios para las evaluaciones de modelos, consulte Permisos y funciones IAM de servicio necesarios para crear un trabajo de evaluación de modelos.

      1. Para usar un rol de servicio de Amazon Bedrock existente, selecciona Usar un rol existente. De lo contrario, utilice Crear un nuevo rol para especificar los detalles de su nuevo rol de IAM servicio.

      2. En Nombre del rol de servicio, especifique el nombre del rol de IAM servicio.

      3. Cuando esté listo, elija Crear rol para crear el nuevo rol IAM de servicio.

  7. A continuación, elija Siguiente.

  8. En la tarjeta Permisos, especifique lo siguiente. Para obtener más información sobre los permisos necesarios para las evaluaciones de modelos, consulte Permisos y funciones IAM de servicio necesarios para crear un trabajo de evaluación de modelos.

  9. IAMRol de flujo de trabajo humano: especifique un rol de SageMaker servicio que tenga los permisos necesarios.

  10. En la tarjeta Equipo de trabajo, especifique lo siguiente.

    Requisitos de notificación a los trabajadores humanos

    Cuando agregue un nuevo trabajador humano a un trabajo de evaluación de modelos, recibirá automáticamente un correo electrónico en el que se le invitará a participar en el trabajo de evaluación de modelos. Al añadir un trabajador humano existente a un trabajo de evaluación de modelos, debe notificárselo y proporcionarle un portal de trabajadores URL para el trabajo de evaluación de modelos. El trabajador actual no recibirá una notificación automática por correo electrónico de su incorporación al nuevo trabajo de evaluación de modelos.

    1. En el menú desplegable Seleccionar equipo, especifique Crear un nuevo equipo de trabajo o el nombre de un equipo de trabajo existente.

    2. (Opcional) Número de trabajadores por petición: actualiza la cantidad de trabajadores que evalúan cada petición. Una vez revisadas las respuestas de cada petición según el número de trabajadores que haya seleccionado, la petición y sus respuestas se retirarán de la circulación por parte del equipo de trabajo. El informe de resultados final incluirá todas las calificaciones de cada trabajador.

    3. (Opcional) Correo electrónico del trabajador existente: seleccione esta opción para copiar una plantilla de correo electrónico que contenga el portal del trabajadorURL.

    4. (Opcional) Correo electrónico del nuevo trabajador: seleccione esta opción para ver el correo electrónico que los nuevos trabajadores reciben automáticamente.

      importante

      Se sabe que los modelos de lenguaje grandes alucinan de vez en cuando y producen contenido tóxico u ofensivo. Es posible que a sus trabajadores se les muestre material tóxico u ofensivo durante esta evaluación. Asegúrese de tomar las medidas adecuadas para formarlos y notificarlos antes de que trabajen en la evaluación. Pueden rechazar y dejar en pausa las tareas o tomarse descansos durante la evaluación mientras acceden a la herramienta de evaluación humana.

  11. A continuación, elija Siguiente.

  12. En la página Proporcionar instrucciones, utilice el editor de texto para proporcionar instrucciones para completar la tarea. Puede obtener una vista previa de la interfaz de usuario de evaluación que su equipo de trabajo utiliza para evaluar las respuestas, incluidas las métricas, los métodos de calificación y sus instrucciones. Esta vista previa se basa en la configuración que ha creado para este trabajo.

  13. A continuación, elija Siguiente.

  14. En la página Revisar y crear, puede ver un resumen de las opciones que ha seleccionado en los pasos anteriores.

  15. Para comenzar su trabajo de evaluación de modelos, elija Crear.

Una vez que el trabajo se haya iniciado correctamente, el estado cambiará a En curso. Cuando el trabajo haya finalizado, el estado cambiará a Completado. Mientras se esté realizando un trabajo de evaluación de modelos, puede optar por detenerlo antes de que su equipo de trabajo haya evaluado todas las respuestas de los modelos. Para ello, selecciona Detener la evaluación en la página de inicio de la evaluación del modelo. Esto cambiará el estado del trabajo de evaluación del modelo a Detenido. Una vez que el trabajo de evaluación del modelo se haya detenido correctamente, puede eliminarlo.

Para obtener información sobre cómo evaluar, ver y descargar los resultados de su trabajo de evaluación de modelos, consulte Resultados del trabajo de evaluación de modelos.