了解自动评估作业的结果

PDF

RSS

聚焦模式

了解自动评估作业的结果 - 亚马逊 SageMaker AI

解读 output.json 文件结构解读实例结果文件的结构解读报告

自动模型评测作业完成后，结果会保存在 Amazon S3 中。下文将介绍生成的文件以及如何解释这些文件。

解读 `output.json` 文件结构

output.json 文件包含所选数据集和指标的综合得分。

输出示例如下


{
    "evaluations": [{
        "evaluation_name": "factual_knowledge",
        "dataset_name": "trex",
		## The structure of the prompt template changes based on the foundation model selected
		"prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]",
        "dataset_scores": [{
            "name": "factual_knowledge",
            "value": 0.2966666666666667
        }],
        "category_scores": [{
                "name": "Author",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.4117647058823529
                }]
            },
				....
            {
                "name": "Capitals",
                "scores": [{
                    "name": "factual_knowledge",
                    "value": 0.2857142857142857
                }]
            }
        ]
    }]
}

解读实例结果文件的结构

一个 evaluation_name _ dataset_name .jsonl 文件，其中包含每个 jsonlines 请求的实例化结果。如果您的 jsonlines 输入数据中有 300 请求，则此 jsonlines 输出文件包含 300 响应。输出文件包含对您的模型提出的请求，以及该评估的得分。整个实例的输出示例如下。

解读报告

评估报告包含基础模型评测作业的结果。评估报告的内容取决于您用来评估模型的任务类型。每份报告都包含以下部分：

评估任务下每次成功评估的总分。以一个数据集的评估为例，如果您对分类任务中的模型进行了准确性和语义鲁棒性评估，那么您的报告顶部就会出现一个汇总准确性和准确性语义鲁棒性评估结果的表格。使用其他数据集进行的其他评估可能采用不同的结构。
评估作业的配置，包括模型名称、类型、使用的评估方法以及评估模型所依据的数据集。
详细评估结果部分总结了评估算法，提供了有关任何内置数据集的信息和链接、得分的计算方法，并用表格显示了一些样本数据及其相关得分。
未完成的评估部分包含未完成评估的列表。如果没有评估未完成，则省略报告的这一部分。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

了解人工评估作业的结果

使用 fmeval 库

本页内容

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项

了解自动评估作业的结果

解读 `output.json` 文件结构

解读实例结果文件的结构

解读报告

本页内容

Related resources

此页内容对您是否有帮助？

Related resources

下一主题：

上一主题：

需要帮助吗？