创建良好的工作人员说明 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建良好的工作人员说明

为模型评估作业创建良好的说明可提高工作人员完成任务的准确性。创建模型评估作业时,可以修改控制台中提供的默认说明。这些说明将显示在工作人员在其中完成标记任务的 UI 页面上。

为了帮助工作人员完成分配的任务,您可以在两个位置提供说明。

为每种评估和评级方法提供良好的描述

描述应简要说明所选指标。描述应针对指标展开说明,并明确您希望工作人员如何评估所选评级方法。要查看示例,了解每种评级方法在工作人员 UI 中是如何显示的,请参阅 可用评级方法摘要

为工作人员提供总体评估说明

这些说明显示在工作人员完成任务的同一网页上。可以使用这个位置为模型评估作业提供整体指导,如果您已将真实响应包含在提示数据集中,则可以对其进行描述。

可用评级方法摘要

以下几个部分分别介绍了工作团队在评估 UI 中看到的评级方法示例,以及这些结果是如何保存在 Amazon S3 中的。

李克特量表,比较多个模型输出

评估人员按照您的说明,通过 5 级李克特量表,表明他们对模型的两种响应的偏好。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的偏好强度评级。

请务必在说明中定义 5 级量表的要点,以便评估人员知道如何根据您的期望对响应进行评级。

这是我的映像。
JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonLikertScale" 键值对中。

选择按钮(单选按钮)

选择按钮允许评估人员指出他们首选某个响应,而不是另一个响应。评估人员按照您的说明,使用单选按钮表明他们在两个响应之间的偏好。最终报告中的结果将以百分比的形式,显示工作人员为每种模型首选的响应。请务必在说明中清楚地阐明您的评估方法。

这是我的映像。
JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonChoice" 键值对中。

序数排名

序数排名允许评估人员根据您的说明,按从 1 开始的顺序对提示的首选响应进行排名。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的排名。请务必在说明中定义排名 1 的含义。

这是我的映像。
JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonRank" 键值对中。

大拇指向上/向下

大拇指向上/向下允许评估人员按照您的说明,将模型的每个响应评定为可接受/不可接受。最终报告中的结果将以百分比的形式,显示每个模型从评估人员处获得好评总数的百分比。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含两个模型的评估中使用这种方法,系统会针对每个模型响应,向工作团队显示一个大拇指向上/向下符号,而最终报告将分别显示每个模型的汇总结果。请务必在说明中定义什么是可接受的(即什么是大拇指向上的评级)。

这是我的映像。
JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "thumbsUpDown" 键值对中。

李克特量表,评估单个模型响应

允许评估人员按照您对 5 级李克特量表的说明,表明他们对模型响应的认可程度。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的 5 级评定结果。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含多个模型的评估中使用这种评级方法,系统会针对每个模型响应,向工作团队显示一个 5 级李克特量表,而最终报告将分别显示每个模型的汇总结果。请务必在说明中定义 5 级量表的要点,以便评估人员知道如何根据您的期望对响应进行评级。

这是我的映像。
JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "individualLikertScale" 键值对中。