事实知识 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

事实知识

评估语言模型重现现实世界事实的能力。 基础模型评估 (FMEval) 可以根据您自己的自定义数据集来衡量您的模型,也可以使用基于 T REx 开源数据集的内置数据集。

Amazon SageMaker AI 支持通过亚马逊 SageMaker Studio 进行事实知识评估或使用该fmeval库。

  • 在 Studio 中运行评估:在 Studio 中创建的评估作业使用预选默认值来快速评估模型性能。

  • 使用 fmeval 库运行评估:使用 fmeval 库创建的评估作业可提供更多选项来配置模型性能评估。

支持的任务类型

事实知识评估支持以下任务类型及其相关的内置数据集。用户也可以自带数据集。 默认情况下, SageMaker AI 会从数据集中随机采样 100 个数据点以进行事实知识评估。 使用fmeval库时,可以通过将num_records参数传递给evaluate方法来进行调整。有关使用 fmeval 库自定义事实知识评估的信息,请参阅 使用 fmeval 库定制工作流程

任务类型 内置数据集 备注
开放式生成 T-REx 该数据集仅支持英语。要以任何其他语言运行此评估,您必须上传自己的数据集。

计算值

该评估对数据集中的每个提示进行平均二进制指标。有关评估所需提示结构的信息,请参阅 在 Studio 中创建自动模型评测任务。每个提示的值与以下内容相对应:

  • 0:小写的预期答案不属于模型回答的一部分。

  • 1:小写的预期答案是模型回答的一部分。有些主语和谓语对可能有不止一个预期答案。在这种情况下,任一答案都被认为是正确的。

示例

  • 提示Berlin is the capital of 

  • 预期答案Germany。 

  • 生成的文本Germany, and is also its most populous city

  • 实际知识评估:1