Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Dans une tâche d'évaluation de modèle, un type de tâche d'évaluation est une tâche que vous souhaitez que le modèle exécute en fonction des informations figurant dans vos instructions. Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle.
Le tableau suivant récapitule les types de tâches disponibles pour les évaluations automatiques des modèles, les ensembles de données intégrés et les mesures pertinentes pour chaque type de tâche.
Type de tâche | Métrique | Jeux de données intégrés | Métrique calculée |
---|---|---|---|
Génération de texte général | Précision | TREX |
Score de connaissance du monde réel (RWK) |
Robustesse | Taux d’erreur de mots | ||
TREX |
|||
WikiText2 |
|||
Toxicité | Toxicité | ||
BOLD |
|||
Synthèse de texte | Précision | Gigaword |
BERTScore |
Toxicité | Gigaword |
Toxicité | |
Robustesse | Gigaword |
BERTScoreet deltaBERTScore | |
Question/réponse | Précision | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
Robustesse | BoolQ |
F1 et deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
Toxicité | BoolQ |
Toxicité | |
NaturalQuestions |
|||
TriviaQA |
|||
Classification de texte | Précision | Women’s Ecommerce Clothing Reviews |
Précision (précision binaire résultant de classification_accuracy_score) |
Robustesse | Women’s Ecommerce Clothing Reviews |
classification_accuracy_score et delta_classification_accuracy_score |