Cree un trabajo de evaluación modelo que utilice trabajadores humanos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Cree un trabajo de evaluación modelo que utilice trabajadores humanos

importante

IAMLas políticas personalizadas que permiten a Amazon SageMaker Studio o Amazon SageMaker Studio Classic crear SageMaker recursos de Amazon también deben conceder permisos para añadir etiquetas a esos recursos. El permiso para añadir etiquetas a los recursos es obligatorio porque Studio y Studio Classic etiquetan automáticamente los recursos que crean. Si una IAM política permite a Studio y Studio Classic crear recursos, pero no permite el etiquetado, se pueden producir errores AccessDenied «» al intentar crear recursos. Para obtener más información, consulte Proporciona permisos para etiquetar SageMaker los recursos.

AWS Políticas gestionadas para Amazon SageMakerque otorgan permisos para crear SageMaker recursos ya incluyen permisos para añadir etiquetas al crear esos recursos.

Para crear un trabajo de evaluación de modelos que utilice trabajadores humanos, debe configurar su entorno para que cuente con los permisos correctos. A continuación, puede utilizar el asistente de tareas de evaluación de modelos de Studio para seleccionar los modelos que desee utilizar y, a continuación, definir los parámetros y el personal que desee utilizar en el trabajo de evaluación de modelos.

Cuando termine el trabajo, podrá ver un informe para comprender cómo evaluaron sus empleados los modelos que seleccionó. Los resultados también se guardan en Amazon S3 como un archivo jsonlines de salida.

En un trabajo de evaluación de modelos en el que se utilizan trabajadores humanos, tiene la capacidad de extraer datos de inferencia de modelos alojados fuera SageMaker y modelos alojados fuera de AWSél. Para obtener más información, consulte Utilizar sus propios datos de inferencia en los trabajos de evaluación de modelos que utilizan trabajadores humanos.

Una vez finalizados los trabajos, los resultados se guardan en el bucket de Amazon S3 especificado cuando se creó el trabajo. Para obtener información sobre cómo interpretar los resultados, consulteComprenda los resultados de su trabajo de evaluación de modelos.

Requisitos previos

Para ejecutar una evaluación del modelo en la interfaz de usuario de Amazon SageMaker Studio, su rol AWS Identity and Access Management (IAM) y cualquier conjunto de datos de entrada deben tener los permisos correctos. Si no tiene un SageMaker dominio o un IAM rol, siga los pasos que se indican. Guía para configurar Amazon SageMaker

Configurar tus permisos

En la siguiente sección, se muestra cómo crear un bucket de Amazon S3 y cómo especificar los permisos correctos para compartir recursos entre orígenes (CORS).

Para crear un bucket de Amazon S3 y especificar los CORS permisos
  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En el panel de navegación, S3 ingresa a la barra de búsqueda en la parte superior de la página.

  3. Elija S3 en Servicios.

  4. Seleccione Buckets en el panel de navegación.

  5. En la sección Depósitos de uso general, en Nombre, elija el nombre del depósito S3 que desee usar para almacenar la entrada y la salida del modelo en la consola. Si no tiene un bucket de S3, haga lo siguiente.

    1. Seleccione Crear depósito para abrir una nueva página de creación de depósito.

    2. En la sección Configuración general, en AWS Región, seleccione la AWS región en la que se encuentra el modelo de cimentación.

    3. Asigne un nombre a su depósito de S3 en el cuadro de entrada situado debajo del nombre del depósito.

    4. Acepte todas las opciones predeterminadas.

    5. Selecciona Crear depósito.

    6. En la sección Depósitos de uso general, en Nombre, selecciona el nombre del depósito de S3 que has creado.

  6. Elija la pestaña Permisos.

  7. Desplázate hasta la sección Uso compartido de recursos entre orígenes (CORS) en la parte inferior de la ventana. Elija Editar.

  8. La siguiente es la CORS política mínima requerida que debes añadir a tu bucket de Amazon S3. Copia y pega lo siguiente en el cuadro de entrada.

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. Elija Guardar cambios.

Para añadir permisos a tu IAM política

Es posible que desee considerar el nivel de permisos que debe asignar a su IAM función.

  • Puede crear una IAM política personalizada que permita los permisos mínimos necesarios adaptados a este servicio.

  • Puede adjuntar las AmazonS3FullAccesspolíticas AmazonSageMakerFullAccessy las políticas existentes a su IAM función actual, que es más permisiva. Para obtener más información sobre la AmazonSageMakerFullAccess política, consulte. AmazonSageMakerFullAccess

Si desea adjuntar las políticas existentes a su IAM función, puede omitir las instrucciones que se indican aquí y seguir las instrucciones de Para añadir permisos a su IAM función.

Las siguientes instrucciones crean una IAM política personalizada que se adapta a este servicio con permisos mínimos.

  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En la barra de búsqueda situada en la parte superior de la página, introduceIAM.

  3. En Servicios, seleccione Identity and Access Management (IAM).

  4. Elija Políticas en el panel de navegación.

  5. Elija Crear política. Cuando se abra el editor de políticas, elija JSON.

  6. Asegúrese de que los siguientes permisos aparezcan en el editor de políticas. También puede copiar y pegar lo siguiente en el editor de políticas.

    { "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
  7. Elija Next (Siguiente).

  8. Introduzca un nombre de política en la sección de detalles de la política, en Nombre de la política. También puede introducir una descripción opcional. Buscará el nombre de esta política cuando la asigne a un rol.

  9. Elija Crear política.

Para añadir permisos a su IAM función
  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En la barra de búsqueda situada en la parte superior de la página, introduceIAM.

  3. En Servicios, seleccione Identity and Access Management (IAM).

  4. Seleccione Roles en el panel de navegación.

  5. Si va a crear un rol nuevo:

    1. Elija Crear rol.

    2. En el paso Seleccionar entidad de confianza, en Tipo de entidad de confianza, elija Política de confianza personalizada.

    3. En el editor de políticas de confianza personalizadas, junto a Añadir principal, elija Añadir.

    4. En el cuadro emergente Añadir principal, en Tipo principal, selecciona AWS los servicios de la lista desplegable de opciones.

    5. En ARNReemplazar por{ServiceName}. sagemaker

    6. Elija Agregar entidad principal.

    7. Elija Next (Siguiente).

    8. (Opcional) En Políticas de permisos, selecciona las políticas que deseas añadir a tu rol.

    9. (Opcional) En Establecer límite de permisos: opcional, elige tu configuración de límite de permisos.

    10. Elija Next (Siguiente).

    11. En el paso Nombre, revisión y creación, en Detalles del rol, complete el nombre y la descripción del rol.

    12. (Opcional) En Añadir etiquetas (opcional), puede añadir etiquetas seleccionando Añadir nueva etiqueta e introducir un par de clave y valor (opcional).

    13. Revise la configuración.

    14. Elija Crear rol.

  6. Si va a añadir la política a un rol existente:

    1. Seleccione el nombre del rol en Nombre del rol. La ventana principal cambia para mostrar información sobre su función.

    2. En la sección Políticas de permisos, selecciona la flecha hacia abajo situada junto a Añadir permisos.

    3. De las opciones que aparecen, selecciona Adjuntar políticas.

    4. En la lista de políticas que aparece, busca y selecciona la política que has creado en Para añadir permisos a tu IAM política y selecciona la casilla situada junto al nombre de la política. Si no ha creado una IAM política personalizada, busque y active las casillas situadas junto a las AmazonS3FullAccesspolíticas AmazonSageMakerFullAccessy políticas AWS proporcionadas. Es posible que desee considerar el nivel de permisos que debe asignar a su IAM función. Las instrucciones de la IAM política personalizada son menos permisivas, mientras que la última es más permisiva. Para obtener más información sobre la política, consulte. AmazonSageMakerFullAccess AmazonSageMakerFullAccess

    5. Elija Añadir permisos. Un banner en la parte superior de la página debe indicar que la política se ha asignado correctamente a la función. cuando se haya completado.

Para añadir una política de confianza a su IAM función

La siguiente política de confianza permite que los administradores puedan SageMaker asumir el rol. Debe añadir la política a su IAM función. Para ello, siga los pasos siguientes.

  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En la barra de búsqueda situada en la parte superior de la página, introduceIAM.

  3. En Servicios, seleccione Identity and Access Management (IAM).

  4. Seleccione Roles en el panel de navegación.

  5. Seleccione el nombre del rol en Nombre del rol. La ventana principal cambia para mostrar información sobre su función.

  6. Seleccione la pestaña Relación de confianza.

  7. Elija Editar la política de confianza.

  8. Asegúrese de que la siguiente política aparezca en Editar política de confianza. También puede copiar y pegar lo siguiente en el editor.

    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. Elija Actualizar política. Un banner en la parte superior de la página debería indicar que se ha actualizado la política de confianza. cuando esté terminado.

Puede crear un trabajo de evaluación humana utilizando un modelo basado en texto que esté disponible en JumpStart o puede utilizar un JumpStart modelo que haya implementado anteriormente en un punto final.

Para lanzar JumpStart
  1. Abre la SageMaker consola de Amazon en https://console.aws.amazon.com/sagemaker/.

  2. En la barra de búsqueda situada en la parte superior de la página, introduceSageMaker.

  3. En Servicios, selecciona Amazon SageMaker.

  4. Selecciona Studio en el panel de navegación.

  5. Elige tu dominio en la sección Cómo empezar, después de expandir la flecha hacia abajo situada debajo de Seleccionar dominio.

  6. Elige tu perfil de usuario en la sección Cómo empezar después de expandir la flecha hacia abajo situada debajo de Seleccionar perfil de usuario.

  7. Selecciona Open Studio para abrir la página de inicio de Studio.

  8. Seleccione Trabajos en el panel de navegación.

Para configurar un trabajo de evaluación
  1. En la página de inicio de la evaluación de modelos, elija Evaluar un modelo

  2. Especifique los detalles del trabajo.

    1. Introduzca el nombre de la evaluación de su modelo. Este nombre le ayuda a identificar el trabajo de evaluación del modelo una vez enviado.

    2. Introduzca una descripción para añadir más contexto al nombre.

    3. Elija Next (Siguiente).

  3. Configure la evaluación

    1. En Elija un tipo de evaluación, seleccione el botón de radio situado junto a Human.

    2. En Elija los modelos que desea evaluar, elija Agregar modelo a la evaluación. Puede evaluar hasta dos modelos para cada evaluación.

      1. Para usar un modelo previamente entrenado, elija un JumpStart modelo JumpStart base previamente entrenado. Si desea utilizar un JumpStart modelo que haya implementado anteriormente en un punto final, elija puntos finales con JumpStart modelos básicos.

      2. Si el modelo requiere un acuerdo legal, seleccione la casilla de verificación para confirmar que está de acuerdo.

      3. Si desea añadir otro modelo, repita el paso anterior.

    3. Para cambiar el comportamiento del modelo durante la inferencia, elija Establecer parámetros.

      El conjunto de parámetros contiene una lista de parámetros de inferencia que afectan al grado de aleatoriedad de la salida del modelo, a la longitud de la salida del modelo y a las palabras que el modelo elegirá a continuación.

    4. A continuación, seleccione un tipo de tarea. Puede seleccionar cualquiera de las siguientes opciones:

      • Resumen de texto

      • Preguntas y respuestas (Q&A)

      • Clasificación de textos

      • Generación abierta

      • Personalizada

    5. En la sección Métricas de evaluación, elija una dimensión de evaluación e introduzca un contexto adicional sobre la dimensión en el cuadro de texto situado debajo de la descripción. Puede elegir entre las siguientes dimensiones:

      • Fluidez: mide la calidad lingüística de un texto generado.

      • Coherencia: mide la organización y la estructura de un texto generado.

      • Toxicidad: mide la nocividad de un texto generado.

      • Precisión: indica la precisión del texto generado.

      • Una dimensión de evaluación personalizada en la que puede definir el nombre y la descripción de su equipo de trabajo.

        Para añadir una dimensión de evaluación personalizada, haga lo siguiente:

        • Elija Añadir una dimensión de evaluación.

        • En el cuadro de texto que contiene Proporcionar una dimensión de evaluación, introduzca el nombre de la dimensión personalizada.

        • En el cuadro de texto que contiene Proporcione una descripción para esta dimensión de evaluación, introduzca una descripción para que su equipo de trabajo comprenda cómo evaluar su dimensión personalizada.

      Debajo de cada una de estas métricas se encuentran las métricas de informes que puede elegir en la flecha descendente Elija un tipo de métrica. Si tiene dos modelos para evaluar, puede elegir métricas de informes comparativas o individuales. Si tiene un modelo para evaluar, puede elegir solo métricas de informes individuales. Puede elegir los siguientes tipos de métricas de informes para cada una de las métricas anteriores.

      • Escala Likert (comparativa): comparación: un evaluador humano indicará su preferencia entre dos respuestas en una escala Likert de 5 puntos según sus instrucciones. Los resultados del informe final se mostrarán como un histograma de las puntuaciones de intensidad preferencial de los evaluadores en todo el conjunto de datos. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que sus evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas. En la JSON salida guardada en Amazon S3, esta opción se representa como ComparisonLikertScale el par clave-valor"evaluationResults":"ComparisonLikertScale".

      • Botones de elección (comparativos): permiten a un evaluador humano indicar su respuesta preferida en lugar de otra respuesta. Los evaluadores indican su preferencia entre dos respuestas según sus instrucciones mediante botones de opción. Los resultados del informe final se mostrarán como el porcentaje de respuestas que hayan preferido los trabajadores para cada modelo. Explique claramente su método de evaluación en sus instrucciones. En la JSON salida guardada en Amazon S3, esta opción se representa como ComparisonChoice el par clave-valor"evaluationResults":"ComparisonChoice".

      • Clasificación ordinal (comparativa): permite a un evaluador humano clasificar sus respuestas preferidas según un mensaje y en orden, empezando por y según sus instrucciones. 1 Los resultados del informe final se mostrarán como un histograma de las clasificaciones de los evaluadores en todo el conjunto de datos. Defina lo que 1 significa un rango de en sus instrucciones. En la JSON salida guardada en Amazon S3, esta opción se representa como ComparisonRank el par clave-valor"evaluationResults":"ComparisonRank".

      • (Individual) Con el visto bueno hacia arriba o hacia abajo: permite a un evaluador humano calificar cada respuesta de un modelo como aceptable o inaceptable según sus instrucciones. Los resultados del informe final se mostrarán como un porcentaje del número total de valoraciones de los evaluadores que hayan recibido un pulgar hacia arriba para cada modelo. Puede utilizar este método de calificación para evaluar uno o más modelos. Si lo utiliza en una evaluación que contiene dos modelos, su equipo de trabajo recibirá el visto bueno o negativo para cada respuesta del modelo y el informe final mostrará los resultados agregados de cada modelo de forma individual. Defina lo que es aceptable como una valoración positiva o negativa en sus instrucciones. En la JSON salida guardada en Amazon S3, esta opción se representa como ThumbsUpDown el par clave-valor"evaluationResults":"ThumbsUpDown".

      • Escala Likert (individual): permite a un evaluador humano indicar en qué medida aprueba la respuesta del modelo basándose en sus instrucciones en una escala Likert de 5 puntos. Los resultados del informe final se mostrarán como un histograma de las puntuaciones de 5 puntos de los evaluadores en todo el conjunto de datos. Puede usar esta escala para una evaluación que contenga uno o más modelos. Si selecciona este método de calificación en una evaluación que contiene más de un modelo, se presentará a su equipo de trabajo una escala Likert de 5 puntos para cada respuesta del modelo y el informe final mostrará los resultados agregados de cada modelo de forma individual. Defina los puntos importantes de la escala de 5 puntos en sus instrucciones para que sus evaluadores sepan cómo calificar las respuestas de acuerdo con sus expectativas. En la JSON salida guardada en Amazon S3, esta opción se representa como IndividualLikertScale el par clave-valor"evaluationResults":"IndividualLikertScale".

    6. Elija un conjunto de datos de Prompt. Este conjunto de datos es obligatorio y su equipo de trabajo humano lo utilizará para evaluar las respuestas de su modelo. Proporcione el S3 URI a un depósito de Amazon S3 que contenga su conjunto de datos de solicitudes en el cuadro de texto situado debajo de S3 URI para su archivo de conjunto de datos de entrada. El conjunto de datos debe estar en jsonlines formato y contener las siguientes claves para identificar qué partes del conjunto de datos utilizará la interfaz de usuario para evaluar el modelo:

      • prompt— La solicitud a la que quieres que tu modelo genere una respuesta.

      • (Opcional) category — - Las etiquetas de categoría de su solicitud. La category clave se usa para categorizar las solicitudes, de modo que pueda filtrar los resultados de la evaluación más adelante por categoría para comprender mejor los resultados de la evaluación. No participa en la evaluación en sí misma y los trabajadores no la ven en la interfaz de usuario de la evaluación.

      • (Opcional)referenceResponse: la respuesta de referencia para sus evaluadores humanos. Los trabajadores no valoran la respuesta de referencia, pero se puede utilizar para entender qué respuestas son aceptables o inaceptables, según sus instrucciones.

      • (Opcional)responses: se usa para especificar inferencias a partir de un modelo externo SageMaker o externo a. AWS

        Este objeto requiere dos pares "modelIdentifier de valores clave adicionales: una cadena que identifica el modelo y "text" que es la inferencia del modelo.

        Si especifica una "responses" clave en cualquier entrada del conjunto de datos de solicitudes personalizadas, debe especificarse en todas las entradas.

      • El siguiente ejemplo json de código muestra los pares clave-valor aceptados en un conjunto de datos de solicitudes personalizado. La casilla de verificación Traiga su propia inferencia debe estar marcada si se proporciona una clave de respuestas. Si está marcada, la responses clave debe especificarse siempre en cada solicitud. El siguiente ejemplo podría usarse en un escenario de preguntas y respuestas.

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. Introduzca la ubicación de un depósito de S3 en la que desee guardar los resultados de la evaluación de salida en el cuadro de texto situado debajo de Elija una ubicación de S3 para guardar los resultados de la evaluación. El archivo de salida escrito en esta ubicación de S3 tendrá el JSON formato y terminará con la extensión,.json.

    8. nota

      Si desea incluir sus propios datos de inferencia en el trabajo de evaluación del modelo, solo puede usar un modelo único.

      (Opcional) Seleccione la casilla de verificación situada debajo de Traiga su propia inferencia para indicar que el conjunto de datos de la solicitud contiene la responses clave. Si especificas la responses clave como parte de alguna solicitud, debe estar presente en todas ellas.

    9. Configure el procesador en la sección Configuración del procesador mediante los siguientes parámetros:

      • Utilice el recuento de instancias para especificar el número de instancias informáticas que se utilizarán para ejecutar el modelo. Si usa más de una 1 instancia, su modelo se ejecutará en instancias paralelas.

      • Use el tipo de instancia para elegir el tipo de instancia de cómputo que quiere usar para ejecutar el modelo. AWS tiene instancias informáticas generales e instancias optimizadas para la informática y la memoria. Para obtener más información sobre los tipos de instancias, consulteTipos de instancias disponibles para su uso con Studio Classic.

      • Si quieres SageMaker usar tu propia clave de cifrado AWS Key Management Service (AWS KMS) en lugar de la clave de servicio AWS gestionado predeterminada, selecciona Activar en la KMS tecla de volumen e introduce la AWS KMS clave. SageMaker utilizará tu AWS KMS clave para cifrar los datos del volumen de almacenamiento. Para obtener más información sobre las claves, consulte AWS Key Management Service.

      • Si SageMaker desea utilizar su propia clave de cifrado AWS Key Management Service (AWS KMS) en lugar de la clave de servicio AWS gestionado predeterminada, seleccione Activado en la KMS clave de salida e introduzca la AWS KMS clave. SageMaker utilizará su AWS KMS clave para cifrar el resultado del trabajo de procesamiento.

      • Utilice un IAM rol para especificar el acceso y los permisos del procesador predeterminado. Introduzca el IAM rol que configuró en la sección Configure su IAM rol en la sección Ejecute una evaluación humana.

    10. Después de especificar el modelo y los criterios, seleccione Siguiente.

Su equipo de trabajo está formado por las personas que están evaluando su modelo. Una vez creado tu equipo de trabajo, este persiste indefinidamente y no puedes cambiar sus atributos. A continuación, se muestra cómo empezar a trabajar con tu equipo de trabajo.

Configura tu equipo de trabajo
  1. Elige un equipo existente o crea un equipo nuevo en el cuadro de texto de entrada Seleccionar equipo.

  2. Especifique el nombre de su organización en Nombre de la organización. Este campo solo aparece al crear el primer equipo de trabajo de la cuenta.

  3. Especifique un correo electrónico de contacto. Sus trabajadores utilizarán este correo electrónico para comunicarse con usted acerca de la tarea de evaluación que les asignará. Este campo solo aparece al crear el primer equipo de trabajo de la cuenta.

  4. Especifique un nombre de equipo. No puede cambiar este nombre más adelante.

  5. Especifique una lista de direcciones de correo electrónico para cada uno de sus trabajadores humanos que evaluarán su amplio modelo de lenguaje (LLM). Cuando especificas las direcciones de correo electrónico de tu equipo, solo se les notificará de un nuevo trabajo cuando se hayan agregado recientemente a un equipo de trabajo. Si utilizas el mismo equipo para un trabajo posterior, debes notificárselo manualmente.

  6. A continuación, especifique el número de trabajadores por solicitud

Proporcione instrucciones a su equipo de trabajo
  1. Proporcione instrucciones detalladas a su fuerza laboral humana para que puedan evaluar su modelo según sus métricas y estándares. Una plantilla en la ventana principal muestra ejemplos de instrucciones que puede proporcionar. Para obtener más información sobre cómo dar instrucciones, consulte Cómo crear buenas instrucciones para los trabajadores.

  2. Para minimizar el sesgo en la evaluación humana, active la casilla de verificación situada junto a Aleatorizar las posiciones de respuesta.

  3. Seleccione Siguiente.

Puede revisar el resumen de las selecciones que ha realizado para su trabajo humano. Si debe cambiar de trabajo, elija Anterior para volver a una selección anterior.

Envíe su solicitud de trabajo de evaluación y vea el progreso del trabajo
  1. Para enviar su solicitud de trabajo de evaluación, elija Crear recurso.

  2. Para ver el estado de todos sus trabajos, elija Trabajos en el panel de navegación. A continuación, elija Evaluación del modelo. El estado de la evaluación se muestra como Completada, Fallida o En curso.

    También se muestra lo siguiente:

    • Ejemplos de cuadernos para realizar una evaluación de modelos en SageMaker Amazon Bedrock.

    • Enlaces a información adicional que incluye documentación, vídeos, noticias y blogs sobre el proceso de evaluación del modelo.

    • También está disponible el portal URL To your Private Worker.

  3. Seleccione su modelo de evaluación en Nombre para ver un resumen de su evaluación.

    • El resumen proporciona información sobre el estado del trabajo, qué tipo de tarea de evaluación ejecutó, en qué modelo y cuándo se ejecutó. Tras el resumen, las puntuaciones de las evaluaciones humanas se ordenan y resumen por métrica.

Vea la boleta de calificaciones de su trabajo de evaluación de modelos que utiliza trabajadores humanos
  1. Para ver el informe de sus trabajos, elija Trabajos en el panel de navegación.

  2. A continuación, elija Evaluación del modelo. En la página principal de evaluaciones de modelos, utilice la tabla para buscar su trabajo de evaluación de modelos. Una vez que el estado del trabajo cambie a Completado, podrá ver su boleta de calificaciones.

  3. Elija el nombre del trabajo de evaluación modelo para su boleta de calificaciones.

Cuando crea un trabajo de evaluación de modelos que utiliza trabajadores humanos, tiene la opción de utilizar sus propios datos de inferencia y hacer que sus trabajadores humanos comparen esos datos de inferencia con los datos producidos por otro JumpStart modelo o con un JumpStart modelo que usted haya implementado en un punto final.

En este tema se describe el formato necesario para los datos de inferencia y un procedimiento simplificado para añadir esos datos al trabajo de evaluación del modelo.

Elija un conjunto de datos de Prompt. Este conjunto de datos es obligatorio y su equipo de trabajo humano lo utilizará para evaluar las respuestas de su modelo. Proporcione el S3 URI a un depósito de Amazon S3 que contenga su conjunto de datos de solicitudes en el cuadro de texto situado debajo de Elija una ubicación de S3 para guardar los resultados de la evaluación. El conjunto de datos debe estar en .jsonl formato. Cada registro debe ser un JSON objeto válido y contener las siguientes claves obligatorias:

  • prompt— Un JSON objeto que contiene el texto que se va a pasar al modelo.

  • (Opcional) category — - Las etiquetas de categoría de su solicitud. La category clave se usa para categorizar las solicitudes, de modo que pueda filtrar los resultados de la evaluación más adelante por categoría para comprender mejor los resultados de la evaluación. No participa en la evaluación en sí misma y los trabajadores no la ven en la interfaz de usuario de la evaluación.

  • (Opcional)referenceResponse: un JSON objeto que contiene la respuesta de referencia para los evaluadores humanos. Los trabajadores no valoran la respuesta de referencia, pero se puede utilizar para entender qué respuestas son aceptables o inaceptables, según sus instrucciones.

  • responses— Se utiliza para especificar inferencias individuales a partir de un modelo externo SageMaker o externo a. AWS

    Este objeto requiere dos pares de valores clave adicionales"modelIdentifier, que es una cadena que identifica el modelo y "text" que es la inferencia del modelo.

    Si especifica una "responses" clave en cualquier entrada del conjunto de datos de solicitudes personalizadas, debe especificarse en todas las entradas.

El siguiente ejemplo json de código muestra los pares clave-valor aceptados en un conjunto de datos de solicitudes personalizado que contiene sus propios datos de inferencia.

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

Para empezar, inicie Studio y, en la barra de navegación principal, seleccione Evaluación del modelo en Trabajos.

Para añadir sus propios datos de inferencia a un trabajo de evaluación de modelos humanos.
  1. En el paso 1: especifique los detalles del trabajo, añada el nombre del trabajo de evaluación del modelo y una descripción opcional.

  2. En el paso 2: Configurar la evaluación, elija Humano.

  3. A continuación, en Elija los modelos que desea evaluar, puede elegir el modelo que desea utilizar. Puede usar un JumpStart modelo que ya se haya implementado o puede elegir un modelo básico de Jumpstart previamente entrenado.

  4. A continuación, elija un tipo de tarea.

  5. A continuación, puede añadir métricas de evaluación.

  6. A continuación, en Conjunto de datos de solicitudes, seleccione la casilla de verificación situada debajo de Haga su propia inferencia para indicar que las solicitudes contienen claves de respuesta.

  7. A continuación, continúe configurando su trabajo de evaluación de modelos.

Para obtener más información sobre cómo se guardan las respuestas de su trabajo de evaluación de modelos que utiliza trabajadores humanos, consulte Comprenda los resultados de un trabajo de evaluación humana