Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Utilice un conjunto de datos de solicitudes personalizado para la evaluación de modelos en Amazon Bedrock
Puede utilizar un conjunto de datos de peticiones personalizado en los trabajos de evaluación de modelos.
Los conjuntos de datos de mensajes personalizados deben almacenarse en Amazon S3 y utilizar el formato de JSON línea y la extensión de .jsonl
archivo. Cuando cargue el conjunto de datos en Amazon S3, asegúrese de actualizar la configuración de Cross Origin Resource Sharing (CORS) en el bucket de S3. Para obtener más información sobre los CORS permisos necesarios, consulteSe requiere el permiso de intercambio de recursos entre orígenes (CORS) en los buckets de S3.
Temas
Requisitos para los conjuntos de datos de peticiones personalizados que se utilizan en los trabajos de evaluación de modelos automática
En los trabajos de evaluación de modelos automática, puede usar un conjunto de datos de peticiones personalizado para cada métrica que seleccione en el trabajo de evaluación de modelos. Los conjuntos de datos personalizados utilizan el formato de JSON línea (.jsonl
) y cada línea debe ser un JSON objeto válido. Puede haber hasta 1000 peticiones en el conjunto de datos por trabajo de evaluación automática.
Debe usar las siguientes claves en un conjunto de datos personalizado.
-
prompt
: obligatorio para indicar la entrada para las siguientes tareas:-
La pregunta a la que debe responder su modelo, en la generación de texto general.
-
La pregunta a la que debe responder su modelo en el tipo de tarea de pregunta y respuesta.
-
El texto que su modelo debe resumir en la tarea de resumen de texto.
-
El texto que el modelo debe clasificar en las tareas de clasificación.
-
-
referenceResponse
: obligatorio para indicar la respuesta basada en la verdad básica con la que se evalúa su modelo para los siguientes tipos de tareas:-
La respuesta a todas las peticiones de las tareas de preguntas y respuestas.
-
La respuesta para todas las evaluaciones de precisión y solidez.
-
-
category
: (opcional) genera la puntuación de evaluación determinada para cada categoría.
Por ejemplo, la precisión requiere tanto la pregunta que se debe formular como la respuesta para comparar la respuesta del modelo. En este ejemplo, utilice la clave prompt
con el valor contenido en la pregunta y la clave referenceResponse
con el valor contenido en la respuesta de la siguiente manera.
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
El ejemplo anterior es una sola línea de un archivo de entrada de JSON líneas que se enviará a su modelo como solicitud de inferencia. El modelo se invocará para cada registro de este tipo en su conjunto de datos JSON de líneas. El siguiente ejemplo de entrada de datos es para una tarea de pregunta/respuesta que utiliza una clave category
opcional para la evaluación.
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
Para obtener más información sobre los requisitos de formato para los trabajos de evaluación de modelos que recurren a trabajadores humanos, consulte Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos.
Requisitos para crear conjuntos de datos de peticiones personalizados en trabajos de evaluación de modelos en los que se recurra a trabajadores humanos
En el formato de JSON línea, cada línea es un JSON objeto válido. Un conjunto de datos de peticiones puede tener un máximo de 1000 peticiones por trabajo de evaluación de modelos.
Una entrada rápida válida debe contener la prompt
clave. Ambas category
referenceResponse
son opcionales. Utilice la clave category
para etiquetar la petición con una categoría específica que pueda utilizar para filtrar los resultados al revisarlos en la tarjeta del informe de la evaluación del modelo. Utilice la clave referenceResponse
para especificar la respuesta veraz a la que sus trabajadores pueden hacer referencia durante la evaluación.
En la interfaz de usuario del trabajador, lo que especifique para prompt
y referenceResponse
estará visible para los trabajadores humanos.
El siguiente es un ejemplo de conjunto de datos personalizado que contiene 6 entradas y utiliza el formato de JSON línea.
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
El siguiente ejemplo es una entrada única expandida para mayor claridad
{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }