选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

了解自动评估作业的结果

聚焦模式
了解自动评估作业的结果 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自动模型评测作业完成后,结果会保存在 Amazon S3 中。下文将介绍生成的文件以及如何解释这些文件。

解读 output.json 文件结构

output.json 文件包含所选数据集和指标的综合得分。

输出示例如下

{ "evaluations": [{ "evaluation_name": "factual_knowledge", "dataset_name": "trex", ## The structure of the prompt template changes based on the foundation model selected "prompt_template": "<s>[INST] <<SYS>>Answer the question at the end in as few words as possible. Do not repeat the question. Do not answer in complete sentences.<</SYS> Question: $feature [/INST]", "dataset_scores": [{ "name": "factual_knowledge", "value": 0.2966666666666667 }], "category_scores": [{ "name": "Author", "scores": [{ "name": "factual_knowledge", "value": 0.4117647058823529 }] }, .... { "name": "Capitals", "scores": [{ "name": "factual_knowledge", "value": 0.2857142857142857 }] } ] }] }

解读实例结果文件的结构

一个 evaluation_name _ dataset_name .jsonl 文件,其中包含每个 jsonlines 请求的实例化结果。如果您的 jsonlines 输入数据中有 300 请求,则此 jsonlines 输出文件包含 300 响应。输出文件包含对您的模型提出的请求,以及该评估的得分。整个实例的输出示例如下。

解读报告

评估报告包含基础模型评测作业的结果。评估报告的内容取决于您用来评估模型的任务类型。每份报告都包含以下部分:

  1. 评估任务下每次成功评估的总分。以一个数据集的评估为例,如果您对分类任务中的模型进行了准确性和语义鲁棒性评估,那么您的报告顶部就会出现一个汇总准确性和准确性语义鲁棒性评估结果的表格。使用其他数据集进行的其他评估可能采用不同的结构。

  2. 评估作业的配置,包括模型名称、类型、使用的评估方法以及评估模型所依据的数据集。

  3. 详细评估结果部分总结了评估算法,提供了有关任何内置数据集的信息和链接、得分的计算方法,并用表格显示了一些样本数据及其相关得分。

  4. 未完成的评估部分包含未完成评估的列表。如果没有评估未完成,则省略报告的这一部分。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。