Creación de un trabajo de evaluación automática de modelos - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Creación de un trabajo de evaluación automática de modelos

Las evaluaciones automáticas de los modelos permiten evaluar las respuestas de un único modelo utilizando las métricas recomendadas. También puede usar conjuntos de datos de peticiones integrados o usar su propio conjunto de datos de peticiones personalizado. Puede tener un máximo de 10 trabajos de evaluación de modelos automática en curso en su cuenta por Región de AWS.

Al configurar un trabajo de evaluación de modelos automática, las métricas disponibles y los conjuntos de datos integrados que mejor se adaptan al tipo de tarea seleccionado se agregan automáticamente al trabajo. Puede añadir o eliminar cualquiera de las métricas o conjuntos de datos preseleccionados. También puedes proporcionar tu propio conjunto de datos de solicitudes personalizado.

Requisitos previos

Para crear su primer trabajo de evaluación de modelos con la consola Amazon Bedrock, debe hacer lo siguiente.

nota

Al crear trabajos de evaluación de modelos con la consola de Amazon Bedrock, debe configurar los CORS permisos correctos en el bucket de Amazon S3 que especifique.

  1. Debe tener acceso al modelo en Amazon Bedrock.

  2. Debe tener un rol de servicio de Amazon Bedrock. Si aún no ha creado un rol de servicio, puede crearlo en la consola de Amazon Bedrock mientras configura su trabajo de evaluación de modelos. Si desea crear una política personalizada, la política adjunta debe permitir el acceso a los siguientes recursos: cualquier depósito de S3 utilizado en el trabajo de evaluación del modelo y el ARN del modelo especificado en el trabajo. El rol de servicio también debe tener Amazon Bedrock definido como entidad principal de servicio en la política de confianza del rol. Para obtener más información, consulte Permisos necesarios.

  3. El usuario, grupo o rol que accede a la consola de Amazon Bedrock debe tener los permisos necesarios para acceder a los buckets de Amazon S3 necesarios. Para obtener más información, consulte Permisos necesarios

  4. Se deben añadir los CORS permisos necesarios al bucket de Amazon S3 de salida y a cualquier depósito de conjunto de datos de solicitudes personalizado. Para obtener más información sobre los CORS permisos necesarios, consulteSe requiere el permiso de intercambio de recursos entre orígenes (CORS) en los buckets de S3.

Tutorial: Crear un trabajo de evaluación automática de modelos

El siguiente procedimiento es un tutorial. El tutorial cubre la creación de un trabajo de evaluación automática de modelos que utilice el modelo Amazon Titan Text G1 - Lite y la creación de un rol de IAM servicio.

Visualización de los resultados del trabajo de evaluación de modelos mediante la consola de Amazon Bedrock

Cuando finaliza un trabajo de evaluación de modelos, los resultados se almacenan en el Amazon S3 Bucket que especificó. Si modifica la ubicación de los resultados de alguna manera, la tarjeta del informe de la evaluación de modelos ya no estará visible en la consola.

(Tutorial) Para crear una evaluación automática del modelo con Amazon Titan Text G1 - Lite
  1. Abra la consola Amazon Bedrock: https://console.aws.amazon.com/bedrock/.

  2. En el panel de navegación, elija Evaluación de modelo.

  3. En la tarjeta Crear una evaluación, en Automático, elija Crear evaluación automática.

  4. En la página Crear una evaluación automática, proporcione la siguiente información:

    1. Nombre de la evaluación: asigne al trabajo de evaluación de modelos un nombre que describa el trabajo. Este nombre se muestra en la tabla de trabajos de evaluación del modelo. El nombre debe ser único Cuenta de AWS en un Región de AWS.

    2. Descripción (opcional): proporcione una descripción opcional.

    3. Selector de modelos: elija el modelo Amazon Titan Text G1 — Lite.

      Para obtener más información sobre los modelos disponibles y cómo acceder a ellos en Amazon Bedrock, consulteGestione el acceso a los modelos básicos de Amazon Bedrock.

    4. (Opcional) Para cambiar la configuración de inferencia, elija actualizar.

      Al cambiar la configuración de inferencia, se modifican las respuestas generadas por el modelo seleccionado. Para obtener más información sobre los parámetros de inferencia disponibles, consulte Parámetros de inferencia para modelos fundacionales.

    5. Tipo de tarea: elija Generación de texto general.

    6. En la tarjeta Métricas y conjuntos de datos: puedes ver una lista de las métricas disponibles y los conjuntos de datos de indicadores integrados. Los conjuntos de datos cambian en función de la tarea que selecciones. En este tutorial, deje seleccionadas las opciones predeterminadas.

    7. Resultados de la evaluación: especifique el S3 URI del directorio en el que desea guardar los resultados del trabajo de evaluación del modelo. Elija Browse S3 para buscar una ubicación en Amazon S3.

    8. IAMFunción de Amazon Bedrock: pulsa el botón de opción Crear una nueva función.

    9. (Opcional) En el nombre del rol de servicio, cambie el sufijo del rol que se creará en su nombre. Los roles creados de esta manera siempre comenzarán con Amazon-Bedrock- -Role- IAM.

    10. Siempre se necesita un segmento de resultados para un trabajo de evaluación automática de modelos y debe ser específico para la función de servicio. IAM Si ya ha especificado un segmento en los resultados de la evaluación, este campo se rellena automáticamente.

    11. A continuación, elija Crear rol.

  5. Para comenzar su trabajo de evaluación de modelos, elija Crear.

Una vez que el trabajo se haya iniciado correctamente, el estado cambiará a En curso. Cuando el trabajo haya finalizado, el estado cambiará a Completado.

Para detener un trabajo de evaluación de modelos que se encuentra actualmente en curso, seleccione Detener la evaluación. El estado del trabajo de evaluación del modelo cambiará de En curso a Detenido. Una vez que el estado del trabajo cambie a Detenido.

Para obtener información sobre cómo evaluar, ver y descargar los resultados de su trabajo de evaluación de modelos, consulte Resultados del trabajo de evaluación de modelos.