了解自动评估工作的结果 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

了解自动评估工作的结果

自动模型评估任务完成后,结果将保存在 Amazon S3 中。以下各节描述了生成的文件以及如何解释它们。

解释output.json文件结构

output.json文件包含所选数据集和指标的汇总分数。

以下是输出示例

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

解释按实例计算的结果文件的结构

Oneevaluation_name_dataset_name.jsonl 文件,其中包含每个 jsonlines 请求的实例化结果。如果您的 jsonlines 输入数据中有300请求,则此 jsonlines 输出文件将包含响应。300输出文件包含对您的模型发出的请求,后面是该评估的分数。以下是实例范围的输出示例。

解读报告

评估报告包含您的基础模型评估工作的结果。评估报告的内容取决于您用于评估模型的任务类型。每份报告都包含以下部分:

  1. 评估任务下每次成功评估的总分数。举一个使用一个数据集进行评估的示例,如果您针对准确性和语义稳健性的分类任务评估模型,则报告顶部会出现一个汇总准确性和准确性语义稳健性评估结果的表格。使用其他数据集进行的其他评估的结构可能有所不同。

  2. 评估任务的配置,包括模型名称、类型、使用的评估方法以及对模型进行评估的数据集。

  3. 详细评估结果” 部分汇总了评估算法,提供了有关任何内置数据集的信息和链接、分数的计算方式以及显示某些样本数据及其相关分数的表格。

  4. 失败的评估” 部分,其中包含未完成的评估列表。如果没有评估失败,则省略报告的这一部分。