创建良好的工作人员说明 - Amazon Bedrock

创建良好的工作人员说明

为模型评估作业创建良好的说明可提高工作人员完成任务的准确性。创建模型评估作业时，可以修改控制台中提供的默认说明。这些说明将显示在工作人员在其中完成标记任务的 UI 页面上。

为了帮助工作人员完成分配的任务，您可以在两个位置提供说明。

为每种评估和评级方法提供良好的描述

描述应简要说明所选指标。描述应针对指标展开说明，并明确您希望工作人员如何评估所选评级方法。要查看示例，了解每种评级方法在工作人员 UI 中是如何显示的，请参阅可用评级方法摘要。

为工作人员提供总体评估说明

这些说明显示在工作人员完成任务的同一网页上。可以使用这个位置为模型评估作业提供整体指导，如果您已将真实响应包含在提示数据集中，则可以对其进行描述。

可用评级方法摘要

以下几个部分分别介绍了工作团队在评估 UI 中看到的评级方法示例，以及这些结果是如何保存在 Amazon S3 中的。

李克特量表，比较多个模型输出

评估人员按照您的说明，通过 5 级李克特量表，表明他们对模型的两种响应的偏好。最终报告中的结果将以直方图的形式，显示评估人员对整个数据集的偏好强度评级。

请务必在说明中定义 5 级量表的要点，以便评估人员知道如何根据您的期望对响应进行评级。

这是我的映像。

JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中，每个工作人员的结果都将保存到 "evaluationResults": "comparisonLikertScale" 键值对中。

选择按钮（单选按钮）

选择按钮允许评估人员指出他们首选某个响应，而不是另一个响应。评估人员按照您的说明，使用单选按钮表明他们在两个响应之间的偏好。最终报告中的结果将以百分比的形式，显示工作人员为每种模型首选的响应。请务必在说明中清楚地阐明您的评估方法。

这是我的映像。

JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中，每个工作人员的结果都将保存到 "evaluationResults": "comparisonChoice" 键值对中。

序数排名

序数排名允许评估人员根据您的说明，按从 1 开始的顺序对提示的首选响应进行排名。最终报告中的结果将以直方图的形式，显示评估人员对整个数据集的排名。请务必在说明中定义排名 1 的含义。

这是我的映像。

JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中，每个工作人员的结果都将保存到 "evaluationResults": "comparisonRank" 键值对中。

大拇指向上/向下

大拇指向上/向下允许评估人员按照您的说明，将模型的每个响应评定为可接受/不可接受。最终报告中的结果将以百分比的形式，显示每个模型从评估人员处获得好评总数的百分比。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含两个模型的评估中使用这种方法，系统会针对每个模型响应，向工作团队显示一个大拇指向上/向下符号，而最终报告将分别显示每个模型的汇总结果。请务必在说明中定义什么是可接受的（即什么是大拇指向上的评级）。

JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中，每个工作人员的结果都将保存到 "evaluationResults": "thumbsUpDown" 键值对中。

李克特量表，评估单个模型响应

允许评估人员按照您对 5 级李克特量表的说明，表明他们对模型响应的认可程度。最终报告中的结果将以直方图的形式，显示评估人员对整个数据集的 5 级评定结果。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含多个模型的评估中使用这种评级方法，系统会针对每个模型响应，向工作团队显示一个 5 级李克特量表，而最终报告将分别显示每个模型的汇总结果。请务必在说明中定义 5 级量表的要点，以便评估人员知道如何根据您的期望对响应进行评级。

这是我的映像。

JSON 输出

evaluationResults 下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中，每个工作人员的结果都将保存到 "evaluationResults": "individualLikertScale" 键值对中。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

自定义提示数据集

管理工作团队