Utilisation de jeux de données rapides et de dimensions d'évaluation disponibles dans les tâches d'évaluation de modèles - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation de jeux de données rapides et de dimensions d'évaluation disponibles dans les tâches d'évaluation de modèles

Les sections suivantes fournissent un aperçu de l'utilisation des tâches d'évaluation de modèles automatiques et basées sur l'homme.

Tâches d’évaluation de modèle

Dans une tâche d'évaluation de modèle, une tâche d'évaluation est une tâche que vous souhaitez que le modèle exécute en fonction des informations contenues dans les instructions.

Vous pouvez choisir un type de tâche par tâche d’évaluation de modèle. Consultez les sections suivantes pour en savoir plus sur chaque type de tâche. Chaque section inclut également une liste des ensembles de données intégrés disponibles et les mesures correspondantes qui ne peuvent être utilisées que dans les tâches d'évaluation automatique de modèles.

Génération ouverte

La génération de texte ouvert est une tâche du modèle de base qui génère des réponses en langage naturel à des invites qui n'ont pas de structure prédéfinie, telles que les requêtes générales adressées à un chatbot. Pour la génération de texte ouvert, Foundation Model Evaluations (FMEval) peut évaluer votre modèle selon les dimensions suivantes.

  • Connaissances factuelles — Évalue dans quelle mesure votre modèle encode les connaissances factuelles. FMEvalpeut mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur TREXjeu de données open source.

  • Robustesse sémantique : évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. FMEvalmesure l'évolution de la sortie de votre modèle en raison de fautes de frappe au clavier, de modifications aléatoires en majuscules et d'ajouts ou de suppressions aléatoires d'espaces blancs.

  • Stéréotypage rapide : mesure la probabilité que votre modèle présente des biais de codage dans sa réponse. Ces biais incluent ceux liés à la race, au sexe, à l'orientation sexuelle, à la religion, à l'âge, à la nationalité, au handicap, à l'apparence physique et au statut socio-économique. FMEvalpeut mesurer les réponses de votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser un ensemble de données intégré basé sur CrowS-Pairsjeu de données open source challenge.

  • Toxicité — Évalue le texte à l'aide de modèles de détection de toxicité. FMEvalvérifie votre modèle pour détecter les références sexuelles, les commentaires grossiers, déraisonnables, haineux ou agressifs, les blasphèmes, les insultes, les flirts, les attaques contre l'identité et les menaces. FMEvalpeut mesurer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur RealToxicityPrompts, RealToxicityPromptsChallenging, et BOLDensembles de données.

    RealToxicityPromptsChallenging est un sous-ensemble de RealToxicityPrompts qui est utilisé pour tester les limites d'un grand modèle de langage (LLM). Il identifie également les zones LLMs vulnérables à la génération de texte toxique.

    Vous pouvez évaluer votre modèle avec les détecteurs de toxicité suivants :

Synthèse de texte

La synthèse de texte est utilisée pour des tâches telles que la création de résumés d'actualités, de documents juridiques, d'articles universitaires, d'aperçus de contenu et de curation de contenu. Les facteurs suivants peuvent influencer la qualité des réponses : ambiguïté, cohérence, biais, fluidité du texte utilisé pour former le modèle de base et perte d'informations, précision, pertinence ou inadéquation du contexte. FMEvalpeut évaluer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur Government Report Dataset, et Gigawordensembles de données. Pour la synthèse du texte, FMEval vous pouvez évaluer votre modèle pour les éléments suivants :

  • Précision — Un score numérique indiquant la similitude du résumé avec un résumé de référence considéré comme une référence reconnue comme une référence. Un score numérique élevé indique que le résumé est de grande qualité. Un score numérique faible indique un mauvais résumé. Les mesures suivantes sont utilisées pour évaluer l'exactitude d'un résumé :

    • ROUGE-N— Calcule N-gram chevauchements entre la référence et le résumé du modèle.

    • Meteor— Calcule le chevauchement des mots entre la référence et le résumé du modèle tout en tenant compte de la reformulation.

    • BERTScore— Calcule et compare les intégrations de phrases à des fins de synthèse et de référence. FMEvalutilise les deberta-xlarge-mnli modèles roberta-large-mnliou microsoft/ pour calculer les intégrations.

  • Toxicité — Scores pour les résumés générés qui sont calculés à l'aide d'un modèle de détecteur de toxicité. Pour plus d'informations, consultez la section Toxicité de la précédente pour la tâche de génération ouverte pour plus de détails.

  • Robustesse sémantique : mesure de la mesure dans laquelle la qualité du résumé textuel de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. Ces modifications incluent notamment les fautes de frappe, les modifications aléatoires apportées aux majuscules et les ajouts ou suppressions aléatoires d'espaces blancs. La robustesse sémantique utilise la différence absolue de précision entre un résumé de texte non perturbé et un résumé perturbé. L'algorithme de précision utilise le ROUGE-N, Meteor, et BERTScoremétriques, comme détaillé précédemment dans cette section.

Réponse aux questions

La réponse aux questions est utilisée pour des tâches telles que la génération de réponses automatiques au service d'assistance, la récupération d'informations et l'apprentissage en ligne. FMEvalpeut évaluer votre modèle par rapport à votre propre jeu de données personnalisé ou utiliser des ensembles de données intégrés basés sur BoolQ, TriviaQA, et Natural Questionsensembles de données. Pour répondre aux questions, FMEval vous pouvez évaluer votre modèle pour les éléments suivants :

  • Précision — Un score moyen comparant la réponse générée aux paires questions-réponses données dans les références. La moyenne du score est calculée à l'aide des méthodes suivantes :

    • Correspondance exacte — Un score binaire de 1 est attribué à une correspondance exacte, et 0 sinon.

    • Correspondance quasi exacte : un score binaire de 1 est attribué à une correspondance une fois que la ponctuation et les articles grammaticaux (tels que le, a et) ont été supprimés (normalisation).

    • F1 sur les mots : score F1, ou moyenne harmonique de précision et de rappel entre la réponse normalisée et la référence. Le score F1 est égal à deux fois la précision multipliée par le rappel divisé par la somme de la précision (P) et du rappel (R), ou F1 = (2*P*R)/(P + R).

      Dans le calcul précédent, la précision est définie comme le nombre de vrais positifs (TP) divisé par la somme des vrais positifs et des faux positifs (FP), ou P = (TP)/(TP+FP).

      Le rappel est défini comme le nombre de vrais positifs divisé par la somme des vrais positifs et des faux négatifs (FN), ou R = (TP)/(TP+FN).

      Un score F1 plus élevé par rapport aux mots indique des réponses de meilleure qualité.

  • Robustesse sémantique : mesure de la mesure dans laquelle la qualité du résumé textuel de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. Parmi ces modifications, citons les fautes de frappe au clavier, la conversion inexacte de nombres en mots, les modifications aléatoires en majuscules et les ajouts ou suppressions aléatoires d'espaces blancs. La robustesse sémantique utilise la différence absolue de précision entre un résumé de texte non perturbé et un résumé perturbé. La précision est mesurée à l'aide d'une correspondance exacte, d'une correspondance quasi-exacte et de F1 sur des mots, comme décrit précédemment.

  • Toxicité — Les scores évaluent les réponses générées à l'aide d'un modèle de détecteur de toxicité. Pour plus d'informations, consultez la section Toxicité de la précédente pour la tâche de génération ouverte pour plus de détails.

Classification

La classification est utilisée pour classer le texte dans des catégories prédéfinies. La recommandation de contenu, la détection de spam, l’identification de la langue et l’analyse des tendances sur les réseaux sociaux comptent parmi les applications qui utilisent la classification de texte. Les données déséquilibrées, ambiguës, bruyantes et les biais d'étiquetage sont des problèmes qui peuvent entraîner des erreurs de classification. FMEvalévalue votre modèle par rapport à un jeu de données intégré basé sur le Women’s ECommerce Clothing Reviewsensemble de données, et/ou par rapport à vos propres ensembles de données demandés pour les éléments suivants.

  • Précision : score qui compare la classe prédite à son étiquette. La précision est mesurée à l'aide des mesures suivantes :

    • Précision de la classification : score binaire indiquant 1 si l'étiquette prévue est égale à la vraie étiquette, et 0 sinon.

    • Précision : rapport entre les vrais positifs et tous les positifs, calculé sur l'ensemble de données. La précision est une mesure appropriée lorsqu'il est important de réduire les faux positifs. Le score de chaque point de données peut être agrégé à l'aide des valeurs suivantes pour le multiclass_average_strategy paramètre. Chaque paramètre est répertorié dans l'exemple suivant.

    • Rappel : rapport entre les vrais positifs et la somme des vrais positifs et des faux négatifs, calculé sur l'ensemble de données. Le rappel est une mesure appropriée lorsqu'il est important de réduire les faux négatifs. Les scores pour chaque point de données peuvent être agrégés à l'aide des valeurs suivantes pour le multiclass_average_strategy paramètre.

      • micro(par défaut) — Somme des vrais positifs divisée par la somme des vrais positifs et des faux négatifs pour toutes les classes. Ce type d'agrégation fournit une mesure de la précision prédictive globale de votre modèle, tout en considérant toutes les classes de la même manière. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à classer correctement les patients atteints de n'importe quelle maladie, y compris les maladies rares, car elle donne le même poids à toutes les catégories.

      • macro— La somme des valeurs de rappel calculées pour chaque classe divisée par le nombre de classes. Ce type d'agrégation fournit une mesure de la précision prédictive de votre modèle pour chaque classe, avec un poids égal pour chaque classe. Par exemple, cette agrégation permet d'évaluer la capacité de votre modèle à prévoir toutes les maladies, indépendamment de la prévalence ou de la rareté de chaque affection.

      • samples(classification multiclasse uniquement) : rapport entre la somme des vrais positifs sur tous les échantillons et la somme des vrais positifs et des faux négatifs pour tous les échantillons. Pour la classification à classes multiples, un échantillon est constitué d'un ensemble de réponses prédites pour chaque classe. Ce type d'agrégation fournit une mesure granulaire du rappel de chaque échantillon pour des problèmes multiclasses. Par exemple, étant donné que l'agrégation par échantillons traite chaque échantillon de la même manière, cette agrégation peut évaluer la capacité de votre modèle à prédire un diagnostic correct pour un patient atteint d'une maladie rare tout en minimisant les faux négatifs.

      • weighted— Le poids d'une classe multiplié par le rappel pour la même classe, additionné pour toutes les classes. Ce type d'agrégation fournit une mesure du rappel global tout en tenant compte des différences d'importance entre les classes. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à prédire un diagnostic correct pour un patient et à accorder une plus grande importance aux maladies potentiellement mortelles.

      • binary— Le rappel calculé pour la classe spécifiée par la valeurpos_label. Ce type d'agrégation ignore la classe non spécifiée et fournit une précision prédictive globale pour une seule classe. Par exemple, cette agrégation peut évaluer la capacité de votre modèle à dépister une maladie spécifique hautement contagieuse potentiellement mortelle dans une population.

      • none— Le rappel calculé pour chaque classe. Le rappel spécifique à une classe peut vous aider à corriger les déséquilibres entre les classes dans vos données lorsque la pénalité en cas d'erreur varie considérablement d'une classe à l'autre. Par exemple, cette agrégation peut évaluer dans quelle mesure votre modèle peut identifier tous les patients susceptibles de présenter une maladie spécifique.

    • Précision de classification équilibrée (BCA) : somme du rappel et du taux négatif réel divisée par 2 pour la classification binaire. Le taux de vrais négatifs est le nombre de vrais négatifs divisé par la somme des vrais négatifs et des faux positifs. Pour la classification multiclasse, BCA est calculé comme la somme des valeurs de rappel pour chaque classe divisée par le nombre de classes. BCApeut aider lorsque la pénalité pour prédire à la fois des faux positifs et des faux négatifs est élevée. Par exemple, BCA vous pouvez évaluer dans quelle mesure votre modèle peut prédire un certain nombre de maladies mortelles hautement contagieuses grâce à des traitements intrusifs.

  • Robustesse sémantique : évalue dans quelle mesure la sortie de votre modèle change à la suite de petites modifications préservant la sémantique de l'entrée. FMEvalmesure le résultat de votre modèle à la suite de fautes de frappe au clavier, de modifications aléatoires de majuscules et d'ajouts ou de suppressions aléatoires d'espaces blancs. La robustesse sémantique mesure la différence absolue de précision entre un résumé de texte non perturbé et un résumé perturbé.

Types d'évaluations de modèles de fondation

Les sections suivantes fournissent des détails sur les types d'évaluation humains et algorithmiques pour votre modèle de base.

Évaluations humaines

Pour évaluer votre modèle par un humain, vous devez définir les métriques et les types de métriques associés. Si vous souhaitez évaluer plusieurs modèles, vous pouvez utiliser un mécanisme de notation comparatif ou individuel. Si vous souhaitez évaluer un modèle, vous devez utiliser un mécanisme de notation individuel. Les mécanismes de notation suivants peuvent être appliqués à n'importe quelle tâche liée au texte :

  • Échelle de Likert (comparative) - comparaison — Un évaluateur humain indiquera sa préférence entre deux réponses sur une échelle de Likert à 5 points conformément à vos instructions. Dans le rapport final, les résultats seront présentés sous forme d'histogramme des évaluations par force de préférence sur l'ensemble de votre ensemble de données. Définissez les points importants de l'échelle à 5 points dans vos instructions afin que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes.

  • Boutons de choix (comparatif) — Permet à un évaluateur humain d'indiquer une réponse préférée par rapport à une autre à l'aide de boutons radio, conformément à vos instructions. Les résultats du rapport final se présentent sous la forme d’un pourcentage de réponses que les travailleurs ont préférées pour chaque modèle. Expliquez clairement votre méthode d'évaluation dans les instructions.

  • Rang ordinal (comparatif) — Permet à un évaluateur humain de classer ses réponses préférées à une invite dans l'ordre, en commençant par 1, et conformément à vos instructions. Dans le rapport final, les résultats s'affichent sous forme d'histogramme des classements établis par les évaluateurs sur l'ensemble de données. Assurez-vous de définir ce que 1 signifie un rang de dans vos instructions.

  • (Individuel) Pouce vers le haut ou vers le bas : permet à un évaluateur humain d'évaluer chaque réponse d'un modèle comme étant acceptable ou inacceptable conformément à vos instructions. Dans le rapport final, les résultats indiquent un pourcentage du nombre total de notes attribuées par les évaluateurs ayant reçu une note positive pour chaque modèle. Vous pouvez utiliser cette méthode de notation pour évaluer un ou plusieurs modèles. Si vous l'utilisez dans une évaluation contenant deux modèles, l'interface utilisateur propose à votre équipe de travail une option « pouce levé » ou « pouce vers le bas » pour chaque réponse du modèle. Le rapport final présentera les résultats agrégés pour chaque modèle individuellement. Définissez ce qui constitue une réponse acceptable dans les instructions que vous donnez à votre équipe de travail.

  • Échelle de Likert (individuelle) - individuelle — Permet à un évaluateur humain d'indiquer dans quelle mesure il approuve la réponse du modèle, en fonction de vos instructions, sur une échelle de Likert à 5 points. Dans le rapport final, les résultats affichent un histogramme des notes à 5 points attribuées par les évaluateurs sur l'ensemble de votre ensemble de données. Vous pouvez utiliser cette méthode de notation pour une évaluation contenant un ou plusieurs modèles. Si vous sélectionnez cette méthode de notation dans une évaluation contenant plusieurs modèles, une échelle de Likert à 5 points est présentée à votre équipe de travail pour chaque réponse du modèle. Le rapport final présentera les résultats agrégés pour chaque modèle individuellement. Définissez les points importants sur l'échelle de 5 points dans vos instructions afin que vos évaluateurs sachent comment évaluer les réponses en fonction de vos attentes.

Évaluations automatiques

Les évaluations automatiques peuvent exploiter des ensembles de données et des algorithmes intégrés, ou vous pouvez apporter votre propre jeu de données d'instructions spécifiques à votre cas d'utilisation. Les ensembles de données intégrés varient pour chaque tâche et sont répertoriés dans les sections suivantes. Pour un résumé des tâches ainsi que des métriques et des ensembles de données associés, consultez le tableau de la section d'évaluation récapitulative du modèle Foundation suivante.

Résumé de l'évaluation du modèle de fondation

Le tableau suivant récapitule toutes les tâches d'évaluation, les mesures et les ensembles de données intégrés pour les évaluations humaines et automatiques.

Tâche Évaluations humaines Métriques humaines Évaluations automatiques Métriques automatiques Ensembles de données intégrés automatiques

Génération ouverte

Fluidité, cohérence, toxicité, précision, cohérence, pertinence, défini par l'utilisateur

Taux de préférence, force de préférence, rang de préférence, taux d'approbation, force d'approbation

Connaissances factuelles

TREX

Robustesse sémantique

TREX

BOLD

WikiText

Stéréotypage rapide

CrowS-Pairs

Toxicité

RealToxicityPrompts

BOLD

Synthèse de texte

Précision

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

Réponse aux questions

Précision

Correspondance exacte

BoolQ

Correspondance quasi exacte

NaturalQuestions

F1 au-dessus des mots

TriviaQA

Robustesse sémantique

BoolQ

NaturalQuestions

TriviaQA

Toxicité

BoolQ

NaturalQuestions

TriviaQA

Classification de texte

Précision

Précision de la classification

Women's Ecommerce Clothing Reviews

Précision

Women's Ecommerce Clothing Reviews

Rappel

Women's Ecommerce Clothing Reviews

Précision de classification équilibrée

Women's Ecommerce Clothing Reviews

Robustesse sémantique

Women's Ecommerce Clothing Reviews