Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
El asistente disponible en Studio le guía para elegir un modelo para evaluar, seleccionar un tipo de tarea, elegir métricas y conjuntos de datos y configurar los recursos necesarios. En los siguientes temas, se muestra cómo formatear un conjunto de datos de entrada personalizado opcional, configurar el entorno y crear el trabajo de evaluación del modelo en Studio.
Para utilizar su propio conjunto de datos de peticiones personalizado, este debe ser un archivo jsonlines
en el que cada línea sea un objeto JSON válido. Cada objeto JSON debe contener una única petición.
Para garantizar que el JumpStart modelo que seleccione funcione bien, SageMaker Clarify formatea automáticamente todos los conjuntos de datos de solicitudes para que estén en el formato que mejor se adapte a las dimensiones de evaluación del modelo que seleccione. En el caso de los conjuntos de datos de solicitudes integrados SageMaker , Clarify también ampliará su solicitud con texto instructivo adicional. Para ver cómo SageMaker Clarify modificará las solicitudes, elija una plantilla de solicitudes en una de las dimensiones de evaluación que haya agregado al trabajo de evaluación del modelo. Para ver un ejemplo de cómo se puede modificar una plantilla de petición, consulte el ejemplo de plantilla de petición.
Esta opción le permite activar o desactivar el soporte de creación automática de plantillas de solicitudes que SageMaker Clarify proporciona para los conjuntos de datos integrados. Al desactivar las plantillas de peticiones automáticas, puede especificar sus propias plantillas de peticiones personalizadas que se aplicarán a todas las peticiones del conjunto de datos.
Para saber qué claves están disponibles para un conjunto de datos personalizado en la interfaz de usuario, consulte las siguientes listas de tareas.
-
model_input
: obligatorio para indicar la entrada para las siguientes tareas.-
La petición a la que debe responder su modelo en tareas de generación abierta, toxicidad y exactitud.
-
La pregunta a la que debe responder su modelo en las tareas de respuesta a preguntas y de conocimiento fáctico.
-
El texto que su modelo debe resumir en tareas de resumen de texto.
-
El texto que el modelo debe clasificar en las tareas de clasificación.
-
El texto que desea que su modelo altere en las tareas de solidez semántica.
-
-
target_output
: obligatorio para indicar la respuesta con la que se evalúa su modelo para las siguientes tareas.-
La respuesta para tareas de respuesta a preguntas, exactitud, solidez semántica y evaluación fáctica.
-
Para las tareas de exactitud y solidez semántica, separe las respuestas aceptables con
<OR>
. La evaluación acepta como correcta cualquiera de las respuestas separadas por una coma. Como ejemplo, utilicetarget_output="UK<OR>England<OR>United Kingdom"
si quiere aceptarUK
,England
oUnited Kingdom
como respuestas posibles.
-
-
(Opcional)
category
: genera puntuaciones de evaluación para cada categoría. -
sent_less_input
: obligatorio para indicar la petición que contiene menos sesgo para las tareas de estereotipado de peticiones. -
sent_more_input
: obligatorio para indicar la petición que contiene más sesgo para las tareas de estereotipado de peticiones.
Una evaluación fáctica requiere tanto la pregunta que se debe formular como la respuesta para comparar la respuesta del modelo. Utilice la clave model_input
con el valor contenido en la pregunta y la clave target_output
con el valor contenido en la respuesta de la siguiente manera:
{"model_input": "Bobigny is the capital of", "target_output": "Seine-Saint-Denis", "category": "Capitals"}
El ejemplo anterior es un objeto JSON único válido que constituye un solo registro en un archivo jsonlines
de entrada. Cada objeto JSON se envía a su modelo como una solicitud. Para realizar varias solicitudes, incluya varias líneas. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave category
opcional para la evaluación.
{"target_output":"Cantal","category":"Capitals","model_input":"Aurillac is the capital of"}
{"target_output":"Bamiyan Province","category":"Capitals","model_input":"Bamiyan city is the capital of"}
{"target_output":"Abkhazia","category":"Capitals","model_input":"Sokhumi is the capital of"}
Si evalúa el algoritmo en la interfaz de usuario, se establecen los siguientes valores predeterminados para el conjunto de datos de entrada:
-
El número de registros que utiliza la evaluación es fijo. El algoritmo toma muestras de este número de solicitudes de forma aleatoria a partir del conjunto de datos de entrada.
-
Para cambiar este número: use la biblioteca
fmeval
tal y como se describe en Personalización del flujo de trabajo con la bibliotecafmeval
y establezca el parámetronum_records
en el número de muestras que desee o-1
para especificar todo el conjunto de datos. El número predeterminado de registros que se evalúan es100
para tareas de exactitud, estereotipado de peticiones, toxicidad, clasificación y solidez semántica. El número predeterminado de registros para una tarea de conocimiento fáctico es300
.
-
-
El delimitador de salida objetivo, tal como se describió anteriormente en el parámetro
target_output
, se establece en<OR>
en la interfaz de usuario.-
Para separar las respuestas aceptables mediante otro delimitador: utilice la biblioteca
fmeval
, tal y como se describe en Personalización de su flujo de trabajo con la bibliotecafmeval
y defina el parámetrotarget_output_delimiter
con el delimitador que desee.
-
-
Debe usar un modelo de JumpStart lenguaje basado en texto que esté disponible para la evaluación del modelo. Estos modelos tienen varios parámetros de configuración de entrada de datos que se transfieren automáticamente al FMeval proceso.
-
Para usar otro tipo de modelo: use la biblioteca
fmeval
para definir la configuración de datos del conjunto de datos de entrada.
-
Para ejecutar una evaluación automática de su modelo de lenguaje grande (LLM), debe configurar su entorno para que tenga los permisos correctos para realizar una evaluación. A continuación, puede usar la interfaz de usuario para que le guíe por los pasos del flujo de trabajo y realizar una evaluación. En las secciones siguientes, se muestra cómo utilizar la interfaz de usuario para realizar una evaluación automática.
Requisitos previos
-
Para realizar una evaluación del modelo en una interfaz de usuario de Studio, su rol AWS Identity and Access Management (de IAM) y cualquier conjunto de datos de entrada deben tener los permisos correctos. Si no tiene un dominio de SageMaker IA o un rol de IAM, siga los pasos que se indican. Guía para empezar a usar Amazon SageMaker AI
Establecimiento de permisos para el bucket de S3
Una vez creados el dominio y el rol, siga estos pasos para añadir los permisos necesarios para evaluar el modelo.
Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
En el panel de navegación, introduzca
S3
en la barra de búsqueda de la parte superior de la página. -
Elija S3 en Servicios.
-
En el panel de navegación, elija Buckets.
-
En la sección Buckets de uso general, en Nombre, elija el nombre del bucket de Amazon S3 que quiere usar para almacenar su conjunto de datos de peticiones personalizado y dónde quiere que se guarden los resultados del trabajo de evaluación del modelo. El bucket de Amazon S3 debe estar en el mismo lugar Región de AWS que la instancia de Studio. Si no dispone de un bucket de Amazon S3, haga lo siguiente.
-
Seleccione Crear bucket para abrir una nueva página Crear bucket.
-
En la sección Configuración general, en Región de AWS , seleccione la región de AWS en la que se encuentra el modelo fundacional.
-
Asigne un nombre a su bucket de S3 en el cuadro de entrada situado debajo de Nombre del bucket.
-
Acepte todas las opciones predeterminadas.
-
Seleccione Crear bucket.
-
En la sección Buckets de uso general, en Nombre, seleccione el nombre del bucket de S3 que ha creado.
-
-
Elija la pestaña Permisos.
-
Vaya a la sección Uso compartido de recursos entre orígenes (CORS) en la parte inferior de la ventana. Elija Editar.
-
Para añadir los permisos de CORS a su bucket, copie el siguiente código en el cuadro de entrada.
[ { "AllowedHeaders": [ "*" ], "AllowedMethods": [ "GET", "PUT", "POST", "DELETE" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ] } ]
-
Elija Guardar cambios.
Adición de permisos a su política de IAM
-
En la barra de búsqueda situada en la parte superior de la página, introduzca
IAM
. -
En Servicios, seleccione Identity and Access Management (IAM).
-
En el panel de navegación, elija Políticas.
-
Elija Crear política. Cuando se abra Editor de políticas, elija JSON.
-
Elija Next (Siguiente).
-
Asegúrese de que aparecen los siguientes permisos en Editor de políticas. Copie y pegue la siguiente política y péguela en Editor de políticas.
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData", "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams", "s3:GetObject", "s3:PutObject", "s3:ListBucket", "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:Search", "sagemaker:CreateProcessingJob", "sagemaker:DescribeProcessingJob" ], "Resource": "*" } ] }
-
Elija Next (Siguiente).
-
Introduzca un nombre de política en la sección Detalles de la política, en Nombre de la política. También puede introducir una descripción opcional. Buscará el nombre de esta política cuando la asigne a un rol.
-
Elija Crear política.
Adición de permisos a su rol de IAM
-
Seleccione Roles en el panel de navegación. Introduzca el nombre del rol que desea utilizar.
-
Seleccione el nombre del rol en Nombre del rol. La ventana principal cambia para mostrar información sobre su rol.
-
En la sección Políticas de permisos, elija la flecha hacia abajo junto a Agregar permisos.
-
De las opciones que aparecen, seleccione Asociar políticas.
-
En la lista de políticas que aparece, busque la política que creó en el paso 5. Marque la casilla de verificación que hay junto al nombre de la política.
-
Seleccione la flecha hacia abajo situada junto a Acciones.
-
En las opciones que aparecen, seleccione Asociar.
-
Busque el nombre del rol que ha creado. Seleccione la casilla de verificación situada junto al nombre.
-
Elija Añadir permisos. Un banner en la parte superior de la página debe indicar La política se ha adjuntado correctamente al rol.
-
.
Al crear un trabajo de evaluación automática de modelos, puede elegir entre los JumpStart modelos basados en texto disponibles o puede usar un JumpStart modelo basado en texto que haya implementado anteriormente en un punto final.
Para crear un trabajo de evaluación del modelo automática, utilice el siguiente procedimiento.
Inicialización de un trabajo de evaluación del modelo automática en Studio
Abre la consola Amazon SageMaker AI en https://console.aws.amazon.com/sagemaker/
. -
En la barra de búsqueda situada en la parte superior de la página, introduzca
SageMaker AI
. -
En Servicios, selecciona Amazon SageMaker AI.
-
En el panel de navegación, seleccione Studio.
-
Elija su dominio en la sección Introducción, después de expandir la flecha hacia abajo situada debajo de Seleccionar dominio.
-
Elija su perfil de usuario en la sección Introducción después de expandir la flecha hacia abajo situada debajo de Seleccionar perfil de usuario.
-
Seleccione Abrir Studio para abrir la página de inicio de Studio.
-
En el panel de navegación principal, seleccione Trabajos.
-
A continuación, elija Evaluación del modelo.
Configuración de un trabajo de evaluación
-
A continuación, elija Evaluar un modelo.
-
En Paso 1: especifique los detalles del trabajo, haga lo siguiente:
-
Introduzca el Nombre de su evaluación del modelo. Este nombre le ayuda a identificar el trabajo de evaluación del modelo una vez enviado.
-
Introduzca una Descripción para añadir más contexto al nombre.
-
Elija Next (Siguiente).
-
-
En Paso 2: configure la evaluación, haga lo siguiente:
-
En Tipo de evaluación, seleccione Automática.
-
A continuación, elija Agregar modelo a evaluación.
-
En el modo Añadir modelo, puede optar por utilizar un modelo básico de Jumpstart previamente entrenado o un punto final de SageMaker IA. Si ya has implementado un JumpStart modelo, elige un punto de conexión de SageMaker IA; de lo contrario, elige un modelo básico de Jumpstart previamente entrenado.
-
A continuación, elija Guardar.
-
(Opcional) Tras añadir el modelo, elija Plantilla de petición para ver el formato de entrada esperado para las peticiones en función del modelo que haya seleccionado. Para obtener más información acerca de cómo configurar una plantilla de petición para un conjunto de datos, consulte Plantillas de peticiones.
Realice los siguientes pasos para utilizar la plantilla de petición predeterminada:
Active la opción Usar las plantillas de petición predeterminadas proporcionadas por los conjuntos de datos.
(Opcional) Para cada conjunto de datos, revise la petición proporcionada por Clarify.
Seleccione Guardar.
Siga estos pasos para usar una plantilla de petición personalizada:
Desactive la opción Usar las plantillas de petición predeterminadas proporcionadas por los conjuntos de datos.
Si Clarify muestra una petición predeterminada, puede personalizarla o eliminarla e introducir la suya propia. Debe incluir la variable
$model_input
en la plantilla de petición.Seleccione Guardar.
-
A continuación, en Tipo de tarea, elija un tipo de tarea.
Para obtener más información sobre los tipos de tareas y las dimensiones de evaluación asociadas, consulte Evaluación automática en Uso de conjuntos de datos de peticiones y dimensiones de evaluación disponibles en trabajos de evaluación del modelo .
-
En la sección Métricas de evaluación, elija una Dimensión de evaluación. El cuadro de texto situado debajo de Descripción contiene contexto adicional sobre la dimensión.
Tras seleccionar una tarea, las métricas asociadas a la tarea aparecen en Métricas. En esta sección, haga lo siguiente.
-
Seleccione una dimensión de evaluación seleccionando la flecha hacia abajo situada bajo Dimensión de evaluación.
-
Elija un conjunto de datos de evaluación. Puede optar por usar su propio conjunto de datos o usar un conjunto de datos integrado. Si desea utilizar su propio conjunto de datos para evaluar el modelo, debe tener un formato que FMEval lo pueda utilizar. También debe estar ubicado en un bucket de S3 que tenga los permisos de CORS a los que se hizo referencia en la sección Configure su entorno anterior. Para obtener más información acerca de cómo dar formato a un conjunto de datos personalizado, consulte Uso de un conjunto de datos de entrada personalizado.
-
Introduzca la ubicación del bucket de S3 en la que desee guardar los resultados de la evaluación de salida. Este archivo está en formato jsonlines (.jsonl).
-
Configure el procesador en la sección Configuración del procesador con los siguientes parámetros:
-
Utilice Recuento de instancias para especificar el número de instancias de computación que desea utilizar para ejecutar el modelo. Si usa más de una instancia de
1
, su modelo se ejecuta en instancias paralelas. -
Use Tipo de instancia para elegir el tipo de instancia de computación que quiere usar para ejecutar el modelo. Para obtener más información sobre los tipos de instancias, consulte Tipos de instancias disponibles para su uso con Studio Classic.
-
Use la clave Volume KMS para especificar su clave de cifrado AWS Key Management Service (AWS KMS). SageMaker La IA utiliza su AWS KMS clave para cifrar el tráfico entrante del modelo y de su bucket de Amazon S3. Para obtener más información acerca de las claves, consulte AWS Key Management Service.
-
Utilice la clave KMS de salida para especificar la clave de AWS KMS cifrado para el tráfico saliente.
-
Utilice Rol de IAM para especificar el acceso y los permisos del procesador predeterminado. Introduzca el rol de IAM que configuró en Configure su entorno
-
-
Tras especificar el modelo y los criterios, elija Siguiente. La ventana principal cambia a Paso 5: revisar y guardar.
-
Revisión y ejecución de su trabajo de evaluación
-
Revise todos los parámetros, el modelo y los datos que seleccionó para la evaluación.
-
Elija Crear recurso para ejecutar la evaluación.
-
Para comprobar el estado del trabajo, vaya a la parte superior de la sección Evaluaciones de modelos de la página.