Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cree un trabajo de evaluación del modelo Amazon Bedrock
Puede crear un trabajo de evaluación de modelos mediante el AWS Management Console, AWS CLI, o un compatible AWS SDK. Puede crear un trabajo de evaluación automática de modelos que genere métricas para la evaluación. También puede crear un trabajo de evaluación de modelos basado en humanos que aproveche a un equipo de trabajadores humanos para calificar y proporcionar sus opiniones para la evaluación.
Los siguientes ejemplos muestran cómo crear un trabajo de evaluación de modelos automático y basado en humanos mediante la consola Amazon Bedrock, AWS CLI, SDK para Python.
Visualización de los resultados del trabajo de evaluación de modelos mediante la consola de Amazon Bedrock
Cuando finaliza un trabajo de evaluación de modelos, los resultados se almacenan en el bucket de Amazon S3 que haya especificado. Si modifica la ubicación de los resultados de alguna manera, la tarjeta del informe de la evaluación de modelos ya no estará visible en la consola.
Trabajos de evaluación de modelos automática
Los siguientes ejemplos muestran cómo crear un trabajo de evaluación automática de modelos. Todos los trabajos de evaluación automática de modelos requieren la creación de un rol IAM de servicio. Para obtener más información sobre los IAM requisitos para configurar un trabajo de evaluación de modelos, consulteRequisitos de rol de servicio para los trabajos de evaluación de modelos.
Trabajos de evaluación de modelos basados en humanos
Los siguientes ejemplos muestran cómo crear un trabajo de evaluación de modelos que utilice trabajadores humanos.
Consola
Para crear un trabajo de evaluación de modelos con trabajadores humanos:
-
Abre la consola Amazon Bedrock: home https://console.aws.amazon.com/bedrock/
-
En el panel de navegación, elija Evaluación de modelo.
-
En la tarjeta Crea una evaluación, en Humano: trae tu propio equipo, elige Crear una evaluación basada en humanos.
-
En la página Especificar detalles del proyecto, haga lo siguiente:
-
Nombre de la evaluación: asigne al trabajo de evaluación de modelos un nombre que describa el trabajo. Este nombre se muestra en su lista de trabajos de evaluación de modelos. El nombre debe ser único en tu cuenta en un Región de AWS.
-
Descripción (opcional): proporcione una descripción opcional.
-
-
A continuación, elija Siguiente.
-
En la página Configure la evaluación, proporcione lo siguiente.
-
Modelos: puede elegir hasta dos modelos que desee utilizar en el trabajo de evaluación de modelos.
Para obtener más información sobre los modelos disponibles en Amazon Bedrock, consulte Acceda a los modelos básicos de Amazon Bedrock.
-
(Opcional) Para cambiar la configuración de inferencia de los modelos seleccionados, elija actualizar.
Al cambiar la configuración de inferencia, se cambian las respuestas generadas por los modelos seleccionados. Para obtener más información sobre los parámetros de inferencia disponibles, consulte Parámetros de inferencia para modelos fundacionales.
-
Tipo de tarea: elija el tipo de tarea que desea que el modelo intente realizar durante el trabajo de evaluación de modelos. Todas las instrucciones del modelo deben incluirse en las propias peticiones. El tipo de tarea no controla las respuestas del modelo.
-
Métricas de evaluación: la lista de métricas recomendadas cambia en función de la tarea que seleccione. Para cada métrica recomendada, debe seleccionar un Método de calificación. Puede tener un máximo de 10 métricas de evaluación por trabajo de evaluación de modelos.
-
(Opcional) Seleccione Añadir métrica para añadir una métrica. Debe definir la Métrica, la Descripción y el Método de calificación.
-
En la tarjeta de conjuntos de datos, debe proporcionar lo siguiente.
-
Elija un conjunto de datos de solicitudes: especifique el S3 URI del archivo de conjunto de datos de solicitudes o elija Buscar S3 para ver los depósitos de S3 disponibles. Puede tener un máximo de 1000 peticiones en un conjunto de datos de peticiones personalizado.
-
Destino de los resultados de la evaluación: debe especificar el S3 URI del directorio en el que desea guardar los resultados del trabajo de evaluación del modelo o elegir Browse S3 para ver los depósitos de S3 disponibles.
-
-
(Opcional) AWS KMS clave: proporcione ARN la clave gestionada por el cliente que desee utilizar para cifrar su trabajo de evaluación de modelos.
-
En la tarjeta de IAMroles — Permisos de Amazon Bedrock, debes hacer lo siguiente. Para obtener más información sobre los permisos necesarios para las evaluaciones de modelos, consulte Permisos y funciones IAM de servicio necesarios para la evaluación de modelos en Amazon Bedrock.
-
Para usar un rol de servicio de Amazon Bedrock existente, selecciona Usar un rol existente. De lo contrario, utilice Crear un nuevo rol para especificar los detalles de su nuevo rol de IAM servicio.
-
En Nombre del rol de servicio, especifique el nombre del rol de IAM servicio.
-
Cuando esté listo, elija Crear rol para crear el nuevo rol IAM de servicio.
-
-
-
A continuación, elija Siguiente.
-
En la tarjeta Permisos, especifique lo siguiente. Para obtener más información sobre los permisos necesarios para las evaluaciones de modelos, consulte Permisos y funciones IAM de servicio necesarios para la evaluación de modelos en Amazon Bedrock.
-
IAMRol de flujo de trabajo humano: especifique un rol de SageMaker servicio que tenga los permisos necesarios.
-
En la tarjeta Equipo de trabajo, especifique lo siguiente.
Requisitos de notificación a los trabajadores humanos
Cuando agregue un nuevo trabajador humano a un trabajo de evaluación de modelos, recibirá automáticamente un correo electrónico en el que se le invitará a participar en el trabajo de evaluación de modelos. Al añadir un trabajador humano existente a un trabajo de evaluación de modelos, debe notificárselo y proporcionarle un portal de trabajadores URL para el trabajo de evaluación de modelos. El trabajador actual no recibirá una notificación automática por correo electrónico de su incorporación al nuevo trabajo de evaluación de modelos.
-
En el menú desplegable Seleccionar equipo, especifique Crear un nuevo equipo de trabajo o el nombre de un equipo de trabajo existente.
-
(Opcional) Número de trabajadores por petición: actualiza la cantidad de trabajadores que evalúan cada petición. Una vez revisadas las respuestas de cada petición según el número de trabajadores que haya seleccionado, la petición y sus respuestas se retirarán de la circulación por parte del equipo de trabajo. El informe de resultados final incluirá todas las calificaciones de cada trabajador.
-
(Opcional) Correo electrónico del trabajador existente: seleccione esta opción para copiar una plantilla de correo electrónico que contenga el portal del trabajadorURL.
-
(Opcional) Correo electrónico del nuevo trabajador: seleccione esta opción para ver el correo electrónico que los nuevos trabajadores reciben automáticamente.
importante
Se sabe que los modelos de lenguaje grandes alucinan de vez en cuando y producen contenido tóxico u ofensivo. Es posible que a sus trabajadores se les muestre material tóxico u ofensivo durante esta evaluación. Asegúrese de tomar las medidas adecuadas para formarlos y notificarlos antes de que trabajen en la evaluación. Pueden rechazar y dejar en pausa las tareas o tomarse descansos durante la evaluación mientras acceden a la herramienta de evaluación humana.
-
-
A continuación, elija Siguiente.
-
En la página Proporcionar instrucciones, utilice el editor de texto para proporcionar instrucciones para completar la tarea. Puede obtener una vista previa de la interfaz de usuario de evaluación que su equipo de trabajo utiliza para evaluar las respuestas, incluidas las métricas, los métodos de calificación y sus instrucciones. Esta vista previa se basa en la configuración que ha creado para este trabajo.
-
A continuación, elija Siguiente.
-
En la página Revisar y crear, puede ver un resumen de las opciones que ha seleccionado en los pasos anteriores.
-
Para comenzar su trabajo de evaluación de modelos, elija Crear.
nota
Una vez que el trabajo se haya iniciado correctamente, el estado cambiará a En curso. Cuando el trabajo haya finalizado, el estado cambiará a Completado. Mientras se esté realizando un trabajo de evaluación de modelos, puede optar por detenerlo antes de que su equipo de trabajo haya evaluado todas las respuestas de los modelos. Para ello, selecciona Detener la evaluación en la página de inicio de la evaluación del modelo. Esto cambiará el estado del trabajo de evaluación del modelo a Detenido. Una vez que el trabajo de evaluación del modelo se haya detenido correctamente, puede eliminarlo.
APIy AWS CLI
Cuando crea un trabajo de evaluación de modelos basado en humanos fuera de la consola de Amazon Bedrock, necesita crear una definición de SageMaker flujo de Amazon. ARN
La definición de flujo ARN es donde se define el flujo de trabajo de un trabajo de evaluación de modelos. La definición de flujo se utiliza para definir la interfaz de trabajo y el equipo de trabajo que desea asignar a la tarea y conectarse a Amazon Bedrock.
Para los trabajos de evaluación de modelos que comiencen a utilizar API las operaciones de Amazon Bedrock, debe crear una definición de flujo ARN mediante el AWS CLI o un compatible AWS SDK. Para obtener más información sobre cómo funcionan las definiciones de flujo y cómo crearlas mediante programación, consulte Crear un flujo de trabajo de revisión humana (API) en la Guía para SageMaker desarrolladores.
En el CreateFlowDefinition
debe especificar AWS/Bedrock/Evaluation
como entrada para el. AwsManagedHumanLoopRequestSource
El rol de servicio de Amazon Bedrock también debe tener permisos para acceder al segmento de salida de la definición de flujo.
El siguiente es un ejemplo de solicitud que utiliza el AWS CLI. En la solicitud, HumanTaskUiArn
es una SageMaker propiedadARN. En elARN, solo puede modificar el Región de AWS.
aws sagemaker create-flow-definition --cli-input-json ' { "FlowDefinitionName": "
human-evaluation-task01
", "HumanLoopRequestSource": { "AwsManagedHumanLoopRequestSource": "AWS/Bedrock/Evaluation
" }, "HumanLoopConfig": { "WorkteamArn": "arn:aws:sagemaker:Región de AWS
:111122223333:workteam/private-crowd/my-workteam
", ## The Task UI ARN is provided by the service team, you can only modify the AWS Region. "HumanTaskUiArn":"arn:aws:sagemaker:AWS Region:394669845002:human-task-ui/Evaluation" "TaskTitle": "Human review tasks", "TaskDescription": "Provide a real good answer", "TaskCount": 1, "TaskAvailabilityLifetimeInSeconds": 864000, "TaskTimeLimitInSeconds": 3600, "TaskKeywords": [ "foo" ] }, "OutputConfig": { "S3OutputPath": "s3://your-output-bucket
" }, "RoleArn": "arn:aws:iam::111122223333
:role/SageMakerCustomerRoleArn" }'
Tras crear la definición de flujoARN, utilice los siguientes ejemplos para crear un trabajo de evaluación de modelos basado en humanos utilizando el AWS CLI o un compatible AWS SDK.