Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Passez en revue les métriques pour les évaluations de la base de connaissances qui utilisent LLMs (console)
Vous pouvez consulter les statistiques présentées dans un rapport pour une tâche d'évaluation de la base de connaissances à l'aide de la console Amazon Bedrock.
Les évaluations de base de connaissances qui utilisent de grands modèles linguistiques (LLMs) calculent des mesures d'évaluation pour évaluer les performances de la base de connaissances en matière de récupération d'informations et de génération de réponses.
Dans le rapport d'évaluation de votre base de connaissances, vous verrez les indicateurs et les graphiques de répartition des indicateurs correspondant à votre type d'évaluation, qu'il s'agisse d'extraction uniquement ou d'extraction avec génération de réponses. Différents indicateurs sont pertinents pour différents types d'évaluation. Les scores calculés pour chaque métrique sont un score moyen pour les textes récupérés ou les réponses générées pour toutes les requêtes des utilisateurs dans votre jeu de données d'instructions. Le score calculé pour chaque métrique est une valeur comprise entre 0 et 1. Plus la valeur est proche de 1, plus la caractéristique de cette métrique apparaît dans les textes ou les réponses récupérés. Les graphiques de répartition pour chaque métrique tracent un histogramme et comptent le nombre de textes extraits ou de réponses aux requêtes qui se situent dans chaque fourchette de scores.
Par exemple, vous avez créé une tâche d'évaluation pour évaluer l'extraction à l'aide de la génération de réponses. Le bulletin de la console indique que le score calculé pour l'exhaustivité des réponses est de 0,82. Le score d'exhaustivité mesure la manière dont les réponses générées répondent à tous les aspects des questions des utilisateurs. Il est calculé sous la forme d'un score moyen pour les réponses aux questions sur toutes les questions de votre ensemble de données. L'histogramme de complétude montre que la plupart des réponses (barre la plus haute) se situent entre un score de complétude compris entre 0,7 et 0,8. Cependant, la base de connaissances a également obtenu une note élevée pour les stéréotypes, où des déclarations généralisées sont formulées dans les réponses à 0,94 en moyenne. La base de connaissances peut générer des réponses assez complètes la plupart du temps, mais ces réponses incluent un grand nombre de déclarations générales concernant des individus ou des groupes de personnes.
Fiche de rapport pour les évaluations de bases de connaissances qui utilisent LLMs
Suivez les étapes pour ouvrir le bulletin dans la console Amazon Bedrock pour les tâches d'évaluation de la base de connaissances qui utilisent LLMs. Reportez-vous aux informations ci-dessous pour chaque métrique qui est pertinente pour les types d'évaluation uniquement et pour l'extraction avec génération de réponses.
-
Connectez-vous à la console Amazon Bedrock AWS Management Console et ouvrez-la à https://console.aws.amazon.com/bedrock/
l'adresse. -
Choisissez Évaluations dans le volet de navigation, puis sélectionnez Évaluation de la base de connaissances.
-
Sélectionnez le nom de votre tâche d'évaluation de la base de connaissances. Vous serez dirigé vers le bulletin, qui est la page principale de l'évaluation de la base de connaissances.
Note
Pour ouvrir le bulletin, le statut de l'évaluation de votre base de connaissances doit être prêt ou disponible.
Métriques pertinentes pour les évaluations de type « extraction uniquement »
Certains indicateurs sont pertinents pour évaluer la capacité de votre base de connaissances à récupérer des informations très pertinentes.
Pertinence du contexte
Cette métrique est pertinente pour la qualité des informations récupérées. Le score est un score moyen pour les fragments de texte récupérés pour toutes les invites de votre ensemble de données. La pertinence du contexte signifie que les parties de texte récupérées sont contextuellement pertinentes par rapport aux questions. Plus le score est élevé, plus les informations sont pertinentes sur le plan contextuel en moyenne. Plus le score est bas, moins les informations sont pertinentes sur le plan contextuel en moyenne.
Couverture du contexte (nécessite une vérité de base)
Cette métrique est pertinente pour la qualité des informations récupérées. Le score est un score moyen pour les fragments de texte récupérés pour toutes les invites de votre ensemble de données. La couverture contextuelle signifie que les fragments de texte récupérés couvrent toutes les informations fournies dans les textes de vérité de base. Plus le score est élevé, plus la couverture contextuelle est importante en moyenne. Plus le score est bas, moins le contexte est couvert en moyenne.
Métriques pertinentes pour la récupération avec les évaluations du type de génération de réponses
Certains indicateurs sont pertinents pour évaluer la capacité de votre base de connaissances à générer des réponses utiles et appropriées sur la base des informations récupérées.
Exactitude
Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. L'exactitude signifie répondre avec précision aux questions. Plus le score est élevé, plus les réponses générées sont correctes en moyenne. Plus le score est bas, moins les réponses générées sont correctes en moyenne.
Intégralité
Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. L'exhaustivité signifie répondre et résoudre tous les aspects des questions. Plus le score est élevé, plus les réponses générées sont complètes en moyenne. Plus le score est bas, moins les réponses générées sont complètes en moyenne.
Utilité
Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. L'utilité signifie des réponses holistiques utiles aux questions. Plus le score est élevé, plus les réponses générées sont utiles en moyenne. Plus le score est bas, moins les réponses générées sont utiles en moyenne.
Cohérence logique
Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. La cohérence logique signifie que les réponses sont exemptes de lacunes logiques, d'incohérences ou de contradictions. Plus le score est élevé, plus les réponses générées sont cohérentes en moyenne. Plus le score est bas, moins les réponses générées sont cohérentes en moyenne.
Fidélité
Cette métrique est pertinente pour la qualité des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. La fidélité signifie éviter les hallucinations en ce qui concerne les morceaux de texte récupérés. Plus le score est élevé, plus les réponses générées sont en moyenne fidèles. Plus le score est bas, moins les réponses générées sont fidèles en moyenne.
Nocivité
Cette métrique est pertinente pour déterminer la pertinence des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. La nocivité signifie faire des déclarations haineuses, insultantes ou violentes. Plus le score est élevé, plus les réponses générées sont dommageables en moyenne. Plus le score est bas, moins les réponses générées sont dommageables en moyenne.
Stéréotypes
Cette métrique est pertinente pour déterminer la pertinence des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. Les stéréotypes consistent à faire des déclarations générales à propos d'individus ou de groupes de personnes. Plus le score est élevé, plus les réponses générées sont stéréotypées en moyenne. Plus le score est bas, moins il y a de stéréotypes dans les réponses générées en moyenne. Notez qu'une forte présence de stéréotypes à la fois flatteurs et désobligeants se traduira par un score élevé.
Refus
Cette métrique est pertinente pour déterminer la pertinence des réponses générées. Le score est un score moyen pour les réponses à toutes les questions de votre ensemble de données. Un refus implique des réponses évasives aux questions. Plus le score est élevé, plus les réponses générées sont évasives en moyenne. Plus le score est bas, moins les réponses générées sont évasives en moyenne.