Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Comprendre les résultats d'une tâche d'évaluation automatique

Mode de mise au point
Comprendre les résultats d'une tâche d'évaluation automatique - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lorsque votre tâche d'évaluation automatique du modèle est terminée, les résultats sont enregistrés dans Amazon S3. Les sections ci-dessous décrivent les fichiers générés et leur interprétation.

Interprétation de la structure du output.json fichier

Le output.json fichier contient les scores agrégés pour les ensembles de données et les mesures que vous avez sélectionnés.

Voici un exemple de sortie

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interprétation de la structure du fichier de résultats par instance

Un fichier evaluation_name _ dataset_name .jsonl contenant les résultats par instance pour chaque requête jsonlines. Si vous avez reçu des 300 requêtes dans vos données d'entrée jsonlines, ce fichier de sortie jsonlines contient les réponses. 300 Le fichier de sortie contient la demande adressée à votre modèle, suivie du score de cette évaluation. Voici un exemple de sortie à l'échelle de l'instance.

Interprétation du rapport

Un rapport d'évaluation contient les résultats de votre travail d'évaluation du modèle de base. Le contenu du rapport d'évaluation dépend du type de tâche que vous avez utilisée pour évaluer votre modèle. Chaque rapport contient les sections suivantes :

  1. Les notes globales pour chaque évaluation réussie dans le cadre de la tâche d'évaluation. À titre d'exemple d'évaluation portant sur un ensemble de données, si vous avez évalué votre modèle pour une tâche de classification en termes de précision et de robustesse sémantique, un tableau résumant les résultats de l'évaluation de l'exactitude et de la robustesse sémantique de précision apparaît en haut de votre rapport. D'autres évaluations portant sur d'autres ensembles de données peuvent être structurées différemment.

  2. La configuration de votre tâche d'évaluation, y compris le nom et le type du modèle, les méthodes d'évaluation utilisées et les ensembles de données par rapport auxquels votre modèle a été évalué.

  3. Une section sur les résultats d'évaluation détaillés qui résume l'algorithme d'évaluation, fournit des informations et des liens vers les ensembles de données intégrés, la façon dont les scores sont calculés, ainsi que des tableaux présentant des exemples de données avec leurs scores associés.

  4. Une section Évaluations échouées qui contient une liste des évaluations qui n'ont pas été terminées. Si aucune évaluation n'a échoué, cette section du rapport est omise.

ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.