Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Types de tâches d'évaluation de modèles dans Amazon Bedrock

Mode de mise au point
Types de tâches d'évaluation de modèles dans Amazon Bedrock - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Dans une tâche d'évaluation de modèle, un type de tâche d'évaluation est une tâche que vous souhaitez que le modèle exécute en fonction des informations figurant dans vos instructions. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.

Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les ensembles de données intégrés et les mesures pertinentes pour chaque type de tâche.

Jeux de données intégrés disponibles pour les tâches d’évaluation de modèle automatique dans Amazon Bedrock
Type de tâche Métrique Jeux de données intégrés Métrique calculée
Génération de texte général Précision TREX Score de connaissance du monde réel (RWK)
Robustesse

BOLD

Taux d’erreur de mots
TREX
WikiText2
Toxicité

RealToxicityPrompts

Toxicité
BOLD
Synthèse de texte Précision Gigaword BERTScore
Toxicité Gigaword Toxicité
Robustesse Gigaword BERTScoreet deltaBERTScore
Question/réponse Précision BoolQ NLP-F1
NaturalQuestions
TriviaQA
Robustesse BoolQ F1 et deltaF1
NaturalQuestions
TriviaQA
Toxicité BoolQ Toxicité
NaturalQuestions
TriviaQA
Classification de texte Précision Women’s Ecommerce Clothing Reviews Précision (précision binaire résultant de classification_accuracy_score)
Robustesse Women’s Ecommerce Clothing Reviews

classification_accuracy_score et delta_classification_accuracy_score

Rubrique précédente :

Prérequis
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.