Resolver errores al crear un trabajo de evaluación de modelos en Amazon SageMaker - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Resolver errores al crear un trabajo de evaluación de modelos en Amazon SageMaker

importante

Para poder utilizar SageMaker Clarify Foundation Model Evaluations (FMEval), debes actualizarte a la nueva experiencia de Studio.

A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. FMEvalno está disponible en Amazon SageMaker Studio Classic.

Para obtener información sobre cómo actualizar a la nueva experiencia de Studio, consulteMigración desde Amazon SageMaker Studio Classic. Para obtener información sobre el uso de la aplicación Studio Classic, consulteAmazon SageMaker Studio Clásico.

Si se produce un error al crear un trabajo de evaluación de modelos, utilice la siguiente lista para solucionar el problema de la evaluación. Si necesitas más ayuda, ponte en contacto con AWS Supportnuestros foros de AWS desarrolladores de Amazon SageMaker.

Error al cargar los datos desde un bucket de Amazon S3

Al crear una evaluación del modelo básico, debe establecer los permisos correctos para el bucket de S3 en el que desea almacenar la entrada y la salida del modelo. Si los permisos para compartir recursos entre orígenes (CORS) no están configurados correctamente, se SageMaker genera el siguiente error:

Error: no se pudo colocar el objeto en s3: se produjo un error al cargar el objeto en S3 Error: no se pudo colocar el objeto en S3: NetworkError al intentar recuperar un recurso.

Para configurar los permisos de bucket correctos, sigue las instrucciones de la sección Configurar tu entorno en. Cree un trabajo de evaluación automática de modelos en Studio

No se pudo completar el trabajo de procesamiento

Los motivos más comunes por los que el trabajo de procesamiento no se pudo completar son los siguientes:

Consulte las siguientes secciones para ayudarle a mitigar cada problema.

Cuota insuficiente

Cuando realizas una evaluación del modelo básico para un JumpStart modelo no implementado, SageMaker Clarify implementa tu modelo de lenguaje grande (LLM) en un SageMaker punto final de tu cuenta. Si su cuenta no tiene una cuota suficiente para ejecutar el JumpStart modelo seleccionado, el trabajo fallará con un. ClientError Para aumentar tu cuota, sigue estos pasos:

Solicita un aumento AWS de Service Quotas
  1. Recupera el nombre de la instancia, la cuota actual y la cuota necesaria del mensaje de error que aparece en pantalla. Por ejemplo, en el siguiente error:

    • El nombre de la instancia esml.g5.12xlarge.

    • La cuota actual del número siguiente current utilization es 0 instances

    • La cuota adicional requerida del número siguiente request delta es1 instances.

    El ejemplo de error es el siguiente:

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. Inicie sesión en la consola Service Quotas AWS Management Console y ábrala.

  3. En el panel de navegación, en Administrar cuotas, ingresaAmazon SageMaker.

  4. Selecciona Ver cuotas.

  5. En la barra de búsqueda, debajo de Cuotas de servicio, introduce el nombre de la instancia del paso 1. Por ejemplo, utilizando la información incluida en el mensaje de error del paso 1, introduzcaml.g5.12xlarge.

  6. Elija el nombre de la cuota que aparece junto al nombre de la instancia y termina por él para el uso de los puntos finales. Por ejemplo, con la información incluida en el mensaje de error del paso 1, elige ml.g5.12xlarge para el uso de los terminales.

  7. Elija Solicitar un aumento a nivel de cuenta.

  8. En Aumentar el valor de la cuota, introduce la cuota requerida necesaria a partir de la información que aparece en el mensaje de error del paso 1. Introduzca el total de current utilization yrequest delta. En el ejemplo anterior, el error current utilization es 0 Instances y request delta es1 Instances. En este ejemplo, solicite una cuota de 1 para suministrar la cuota requerida.

  9. Seleccione Request (Solicitar).

  10. Seleccione el historial de solicitudes de cuota en el panel de navegación.

  11. Cuando el estado cambie de Pendiente a Aprobado, vuelva a ejecutar el trabajo. Es posible que tengas que actualizar el navegador para ver el cambio.

Para obtener más información sobre cómo solicitar un aumento de la cuota, consulte Solicitar un aumento de la cuota.

Memoria insuficiente

Si inicias una evaluación del modelo básico en una EC2 instancia de Amazon que no tiene memoria suficiente para ejecutar un algoritmo de evaluación, el trabajo falla y muestra el siguiente error:

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

Para aumentar la memoria disponible para el trabajo de evaluación, cambia la instancia por una que tenga más memoria. Si utiliza la interfaz de usuario, puede elegir un tipo de instancia en la configuración del procesador en el paso 2. Si ejecuta su trabajo dentro de la SageMaker consola, abra un espacio nuevo con una instancia con mayor capacidad de memoria.

Para ver una lista de EC2 instancias de Amazon, consulta Tipos de instancias.

Para obtener más información sobre las instancias con mayor capacidad de memoria, consulta Instancias optimizadas para memoria.

No pasó la comprobación de ping

En algunos casos, el trabajo de evaluación del modelo básico fallará porque no pasó una comprobación de ping cuando se SageMaker implementó el terminal. Si no pasa la prueba de ping, aparece el siguiente error:

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

Si su trabajo genera este error, espere unos minutos y vuelva a ejecutarlo. Si el error persiste, ponte en contacto con AWS Support o con los foros de AWS desarrolladores de Amazon SageMaker.

No puedes encontrar las evaluaciones de los modelos básicos en la SageMaker consola

Para poder utilizar SageMaker Clarify Foundation Model Evaluations, debes actualizarte a la nueva experiencia de Studio. A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. La función de evaluación básica solo se puede utilizar en la experiencia actualizada. Para obtener información sobre cómo actualizar Studio, consulteMigración desde Amazon SageMaker Studio Classic.

Su modelo no admite la creación rápida de estereotipos

Solo algunos JumpStart modelos admiten la creación rápida de estereotipos. Si selecciona un JumpStart modelo que no es compatible, aparece el siguiente error:

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

Si recibe este error, no podrá utilizar el modelo seleccionado en una evaluación básica. SageMaker Clarify está trabajando actualmente en la actualización de todos los JumpStart modelos para facilitar las tareas de creación de estereotipos, de modo que puedan utilizarse en la evaluación de un modelo básico.

Errores de validación del conjunto de datos (humanos)

El conjunto de datos de solicitudes personalizado de un trabajo de evaluación de modelos que utiliza trabajadores humanos debe formatearse con el formato de JSON líneas que utiliza la .jsonl extensión.

Al iniciar un trabajo, cada JSON objeto del conjunto de datos de solicitudes se valida de forma interdependiente. Si uno de los JSON objetos no es válido, aparece el siguiente error.

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

Para que un conjunto de datos de solicitudes personalizado supere todas las validaciones, debe cumplirse lo siguiente para todos los JSON objetos del archivo de JSON líneas.

  • Cada línea del archivo de conjunto de datos de solicitudes debe ser un objeto válidoJSON.

  • Los caracteres especiales, como las comillas ("), deben estar correctamente separados entre sí. Por ejemplo, si el mensaje fuera el siguiente, "Claire said to the crowd, "Bananas are the best!"" las comillas deberían estar entre comillas usando un\,"Claire said to the crowd, \"Bananas are the best!\"".

  • Un JSON objeto válido debe contener al menos el par prompt clave/valor.

  • Un archivo de conjunto de datos de solicitudes no puede contener más de 1000 JSON objetos en un solo archivo.

  • Si especifica la responses clave en cualquier JSON objeto, debe estar presente en todos los JSON objetos.

  • El número máximo de objetos de la responses clave es 1. Si desea comparar las respuestas de varios modelos, cada uno requiere un BYOI conjunto de datos independiente.

  • Si especificas la responses clave en algún JSON objeto, también debe contener las text claves modelIdentifier y en todos los responses objetos.