Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utiliser un jeu de données d'invite personnalisé pour évaluer le modèle dans Amazon Bedrock
Vous pouvez utiliser un jeu de données de requêtes personnalisé dans les tâches d’évaluation de modèle.
Les ensembles de données d'invite personnalisés doivent être stockés dans Amazon S3 et utiliser le format de JSON ligne et l'extension de .jsonl
fichier. Lorsque vous chargez l'ensemble de données sur Amazon S3, assurez-vous de mettre à jour la configuration Cross Origin Resource Sharing (CORS) sur le compartiment S3. Pour en savoir plus sur les CORS autorisations requises, consultezAutorisation de partage de ressources entre origines (CORS) requise sur les compartiments S3.
Rubriques
Exigences concernant les jeux de données de requêtes personnalisés utilisés dans les tâches d’évaluation de modèle automatique
Dans les tâches d’évaluation de modèle automatique, vous pouvez utiliser un jeu de données de requêtes personnalisé pour chaque métrique que vous sélectionnez dans la tâche d’évaluation de modèle. Les ensembles de données personnalisés utilisent le format de JSON ligne (.jsonl
), et chaque ligne doit être un JSON objet valide. Votre jeu de données peut contenir jusqu’à 1 000 requêtes par tâche d’évaluation automatique.
Dans un jeu de données personnalisé, vous devez utiliser les clés suivantes.
-
prompt
: nécessaire pour indiquer l’entrée pour les tâches suivantes :-
Requête à laquelle votre modèle doit répondre dans une tâche de génération de texte général.
-
Question à laquelle votre modèle doit répondre dans une tâche de type question/réponse.
-
Texte que votre modèle doit résumer dans une tâche de résumé de texte.
-
Texte que votre modèle doit classifier dans les tâches de classification.
-
-
referenceResponse
: nécessaire pour indiquer la réponse de vérité terrain par rapport à laquelle votre modèle est évalué pour les types de tâches suivants :-
Réponse à toutes les requêtes dans les tâches question/réponse.
-
Réponse pour toutes les évaluations de précision et de robustesse.
-
-
category
(facultatif) : génère des scores d’évaluation rapportés pour chaque catégorie.
Par exemple, pour évaluer la précision, il est nécessaire de disposer d’une question à poser et d’une réponse qui sera comparée à celle du modèle. Dans cet exemple, la clé prompt
est utilisée avec la valeur contenue dans la question, et la clé referenceResponse
avec la valeur contenue dans la réponse comme suit.
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
L'exemple précédent est une seule ligne d'un fichier d'entrée de JSON ligne qui sera envoyée à votre modèle sous forme de demande d'inférence. Le modèle sera invoqué pour chaque enregistrement de ce type dans votre jeu JSON de données linéaires. L’exemple d’entrée de données ci-dessous concerne une tâche question/réponse qui utilise une clé facultative category
pour l’évaluation.
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}
Pour en savoir plus sur le format exigé pour les tâches d’évaluation de modèle faisant appel à des travailleurs humains, consultez Exigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains.
Exigences concernant les jeux de données de requêtes personnalisés dans les tâches d’évaluation de modèle faisant appel à des travailleurs humains
Dans le format de JSON ligne, chaque ligne est un JSON objet valide. Un jeu de données de requêtes peut comporter un maximum de 1 000 requêtes par tâche d’évaluation de modèle.
Une entrée d'invite valide doit contenir la prompt
clé. Les deux category
referenceResponse
sont facultatifs. Utilisez la clé category
pour associer votre requête à une catégorie spécifique, laquelle vous permettra de filtrer les résultats pendant leur examen dans le bulletin d’évaluation du modèle. Utilisez la clé referenceResponse
pour spécifier la réponse de vérité terrain à laquelle vos travailleurs peuvent faire référence pendant l’évaluation.
Dans l’interface utilisateur des travailleurs, ce que vous spécifiez pour prompt
et referenceResponse
est visible de vos travailleurs humains.
Voici un exemple de jeu de données personnalisé qui contient 6 entrées et utilise le format JSON de ligne.
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
{"prompt":"Provide the prompt you want the model to use during inference
","category":"(Optional) Specify an optional category
","referenceResponse":"(Optional) Specify a ground truth response
."}
L’exemple suivant est une entrée unique développée dans un souci de clarté
{ "prompt": "What is high intensity interval training?", "category": "Fitness", "referenceResponse": "High-Intensity Interval Training (HIIT) is a cardiovascular exercise approach that involves short, intense bursts of exercise followed by brief recovery or rest periods." }