Comprendre les résultats d'une tâche d'évaluation automatique - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comprendre les résultats d'une tâche d'évaluation automatique

Lorsque votre tâche d'évaluation automatique du modèle est terminée, les résultats sont enregistrés dans Amazon S3. Les sections ci-dessous décrivent les fichiers générés et leur interprétation.

Interprétation de la structure du output.json fichier

Le output.json fichier contient les scores agrégés pour les ensembles de données et les mesures que vous avez sélectionnés.

Voici un exemple de sortie

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

Interprétation de la structure du fichier de résultats par instance

Unevaluation_name_dataset_nameFichier .jsonl contenant les résultats par instance pour chaque requête jsonlines. Si vous avez reçu des 300 requêtes dans vos données d'entrée jsonlines, ce fichier de sortie jsonlines contient les réponses. 300 Le fichier de sortie contient la demande adressée à votre modèle, suivie du score de cette évaluation. Voici un exemple de sortie à l'échelle de l'instance.

Interprétation du rapport

Un rapport d'évaluation contient les résultats de votre travail d'évaluation du modèle de base. Le contenu du rapport d'évaluation dépend du type de tâche que vous avez utilisée pour évaluer votre modèle. Chaque rapport contient les sections suivantes :

  1. Les notes globales pour chaque évaluation réussie dans le cadre de la tâche d'évaluation. À titre d'exemple d'évaluation portant sur un ensemble de données, si vous avez évalué votre modèle pour une tâche de classification en termes de précision et de robustesse sémantique, un tableau résumant les résultats de l'évaluation de l'exactitude et de la robustesse sémantique de précision apparaît en haut de votre rapport. D'autres évaluations portant sur d'autres ensembles de données peuvent être structurées différemment.

  2. La configuration de votre tâche d'évaluation, y compris le nom et le type du modèle, les méthodes d'évaluation utilisées et les ensembles de données par rapport auxquels votre modèle a été évalué.

  3. Une section sur les résultats d'évaluation détaillés qui résume l'algorithme d'évaluation, fournit des informations et des liens vers les ensembles de données intégrés, la façon dont les scores sont calculés, ainsi que des tableaux présentant des exemples de données avec leurs scores associés.

  4. Une section Évaluations échouées qui contient une liste des évaluations qui n'ont pas été terminées. Si aucune évaluation n'a échoué, cette section du rapport est omise.