Conjuntos de datos de peticiones personalizados (evaluación automática)Conjuntos de datos de peticiones personalizados (evaluación humana)

Utilice un conjunto de datos de solicitudes personalizado para la evaluación de modelos en Amazon Bedrock

Puede utilizar un conjunto de datos de peticiones personalizado en los trabajos de evaluación de modelos.

Los conjuntos de datos de mensajes personalizados deben almacenarse en Amazon S3 y utilizar el formato de JSON línea y la extensión de .jsonl archivo. Cuando cargue el conjunto de datos en Amazon S3, asegúrese de actualizar la configuración de Cross Origin Resource Sharing (CORS) en el bucket de S3. Para obtener más información sobre los CORS permisos necesarios, consulteSe requiere el permiso de intercambio de recursos entre orígenes (CORS) en los buckets de S3.

Temas

Requisitos para los conjuntos de datos de peticiones personalizados que se utilizan en los trabajos de evaluación de modelos automática
Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos

Requisitos para los conjuntos de datos de peticiones personalizados que se utilizan en los trabajos de evaluación de modelos automática

En los trabajos de evaluación de modelos automática, puede usar un conjunto de datos de peticiones personalizado para cada métrica que seleccione en el trabajo de evaluación de modelos. Los conjuntos de datos personalizados utilizan el formato de JSON línea (.jsonl) y cada línea debe ser un JSON objeto válido. Puede haber hasta 1000 peticiones en el conjunto de datos por trabajo de evaluación automática.

Debe usar las siguientes claves en un conjunto de datos personalizado.

prompt: obligatorio para indicar la entrada para las siguientes tareas:
- La pregunta a la que debe responder su modelo, en la generación de texto general.
- La pregunta a la que debe responder su modelo en el tipo de tarea de pregunta y respuesta.
- El texto que su modelo debe resumir en la tarea de resumen de texto.
- El texto que el modelo debe clasificar en las tareas de clasificación.
referenceResponse: obligatorio para indicar la respuesta basada en la verdad básica con la que se evalúa su modelo para los siguientes tipos de tareas:
- La respuesta a todas las peticiones de las tareas de preguntas y respuestas.
- La respuesta para todas las evaluaciones de precisión y solidez.
category: (opcional) genera la puntuación de evaluación determinada para cada categoría.

Por ejemplo, la precisión requiere tanto la pregunta que se debe formular como la respuesta para comparar la respuesta del modelo. En este ejemplo, utilice la clave prompt con el valor contenido en la pregunta y la clave referenceResponse con el valor contenido en la respuesta de la siguiente manera.


{
    "prompt": "Bobigny is the capital of",
    "referenceResponse": "Seine-Saint-Denis",
    "category": "Capitals"
}

El ejemplo anterior es una sola línea de un archivo de entrada de JSON líneas que se enviará a su modelo como solicitud de inferencia. El modelo se invocará para cada registro de este tipo en su conjunto de datos JSON de líneas. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave category opcional para la evaluación.


{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"}
{"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"}
{"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}

Para obtener más información sobre los requisitos de formato para los trabajos de evaluación de modelos que recurren a trabajadores humanos, consulte Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos.

Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos

En el formato de JSON línea, cada línea es un JSON objeto válido. Un conjunto de datos de peticiones puede tener un máximo de 1000 peticiones por trabajo de evaluación de modelos.

Una entrada rápida válida debe contener la prompt clave. Ambas category referenceResponse son opcionales. Utilice la clave category para etiquetar la petición con una categoría específica que pueda utilizar para filtrar los resultados al revisarlos en la tarjeta del informe de la evaluación del modelo. Utilice la clave referenceResponse para especificar la respuesta veraz a la que sus trabajadores pueden hacer referencia durante la evaluación.

En la interfaz de usuario del trabajador, lo que especifique para prompt y referenceResponse estará visible para los trabajadores humanos.

El siguiente es un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de JSON línea.


{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","category":"(Optional) Specify an optional category","referenceResponse":"(Optional) Specify a ground truth response."}

El siguiente ejemplo es una entrada única expandida para mayor claridad


{
    "prompt": "What is high intensity interval training?",
    "category": "Fitness",
    "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods."
}

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conjuntos de datos integrados

Informes y métricas para la evaluación de modelos