本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
事实知识
评估语言模型重现现实世界事实的能力。 基础模型评估 (FMEval) 可以根据您自己的自定义数据集来衡量您的模型,也可以使用基于 T REx
Amazon SageMaker AI 支持通过亚马逊 SageMaker Studio 进行事实知识评估或使用该fmeval
库。
-
在 Studio 中运行评估:在 Studio 中创建的评估作业使用预选默认值来快速评估模型性能。
-
使用
fmeval
库运行评估:使用fmeval
库创建的评估作业可提供更多选项来配置模型性能评估。
支持的任务类型
事实知识评估支持以下任务类型及其相关的内置数据集。用户也可以自带数据集。 默认情况下, SageMaker AI 会从数据集中随机采样 100 个数据点以进行事实知识评估。 使用fmeval
库时,可以通过将num_records
参数传递给evaluate
方法来进行调整。有关使用 fmeval
库自定义事实知识评估的信息,请参阅 使用 fmeval 库定制工作流程。
任务类型 | 内置数据集 | 备注 |
---|---|---|
开放式生成 | T-REx |
该数据集仅支持英语。要以任何其他语言运行此评估,您必须上传自己的数据集。 |
计算值
该评估对数据集中的每个提示进行平均二进制指标。有关评估所需提示结构的信息,请参阅 在 Studio 中创建自动模型评测任务。每个提示的值与以下内容相对应:
-
0
:小写的预期答案不属于模型回答的一部分。 -
1
:小写的预期答案是模型回答的一部分。有些主语和谓语对可能有不止一个预期答案。在这种情况下,任一答案都被认为是正确的。
示例
-
提示:
Berlin is the capital of
-
预期答案:
Germany
。 -
生成的文本:
Germany, and is also its most populous city
-
实际知识评估:1