本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动模型评测作业完成后,结果会保存在 Amazon S3 中。下文将介绍生成的文件以及如何解释这些文件。
解读 output.json
文件结构
output.json
文件包含所选数据集和指标的综合得分。
输出示例如下
{
"evaluations": [{
"evaluation_name": "factual_knowledge",
"dataset_name": "trex",
## The structure of the prompt template changes based on the foundation model selected
"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
"dataset_scores": [{
"name": "factual_knowledge",
"value": 0.2966666666666667
}],
"category_scores": [{
"name": "Author",
"scores": [{
"name": "factual_knowledge",
"value": 0.4117647058823529
}]
},
....
{
"name": "Capitals",
"scores": [{
"name": "factual_knowledge",
"value": 0.2857142857142857
}]
}
]
}]
}
解读实例结果文件的结构
一个 evaluation_name
_ dataset_name
.jsonl 文件,其中包含每个 jsonlines 请求的实例化结果。如果您的 jsonlines 输入数据中有 300
请求,则此 jsonlines 输出文件包含 300
响应。输出文件包含对您的模型提出的请求,以及该评估的得分。整个实例的输出示例如下。
解读报告
评估报告包含基础模型评测作业的结果。评估报告的内容取决于您用来评估模型的任务类型。每份报告都包含以下部分:
-
评估任务下每次成功评估的总分。以一个数据集的评估为例,如果您对分类任务中的模型进行了准确性和语义鲁棒性评估,那么您的报告顶部就会出现一个汇总准确性和准确性语义鲁棒性评估结果的表格。使用其他数据集进行的其他评估可能采用不同的结构。
-
评估作业的配置,包括模型名称、类型、使用的评估方法以及评估模型所依据的数据集。
-
详细评估结果部分总结了评估算法,提供了有关任何内置数据集的信息和链接、得分的计算方法,并用表格显示了一些样本数据及其相关得分。
-
未完成的评估部分包含未完成评估的列表。如果没有评估未完成,则省略报告的这一部分。