在 Amazon Bedrock(控制台)中查看自动模型评估工作的指标 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock(控制台)中查看自动模型评估工作的指标

您可以使用 Amazon Bedrock 控制台查看自动模型评估任务报告中显示的指标。

在模型评估报告卡中,可以看到您提供或选择的数据集中的提示总数,以及其中有多少提示收到了响应。如果响应数少于输入提示数,请务必检查 Amazon S3 存储桶中的数据输出文件。提示可能导致模型出错,未检索到任何推理。只有来自模型的响应才会用于指标计算。

通过以下过程,在 Amazon Bedrock 控制台上查看自动模型评估作业。

  1. 打开 Amazon Bedrock 控制台。

  2. 在导航窗格中,选择模型评估

  3. 接下来,在模型评估表中找到您要查看的自动模型评估作业的名称。然后选中它。

在所有与语义稳健性相关的指标中,Amazon Bedrock 会通过以下方式扰动提示:将文本转换为全部小写、键盘输入错误、将数字转换为字词、随机更改为大写,以及随机添加/删除空格。

打开模型评估报告后,您可以查看作业的汇总指标和作业配置摘要

对于创建作业时指定的每个指标和提示数据集,您都会看到一张卡,以及为该指标指定的每个数据集的值。这个值的计算方式会根据任务类型和您选择的指标而变化。

将可用指标应用于一般文本生成任务类型时,该如何计算每个指标
  • 准确性:对于此指标,该值是使用现实世界知识分数(RWK分数)计算得出的。RWKscore 考察了模型对现实世界的事实知识进行编码的能力。RWK分数高表示您的模型是准确的。

  • 稳健性:这个指标的值是使用语义稳健性计算得出的。而后者是使用字词错误率计算得出的。语义稳健性衡量模型输出因输入中微小的语义保持扰动而导致的变化程度。针对此类扰动的稳健性是一种理想属性,因此,语义稳健性分数较低,表明您的模型表现良好。

    我们会考虑的扰动类型包括:将文本转换为全部小写、键盘输入错误、将数字转换为字词、随机更改为大写,以及随机添加/删除空格。系统会对数据集中的每个提示进行大约 5 次的扰动。然后,发送每个经过扰动的响应以进行推理,并用它们自动计算稳健性分数。

  • 毒性:这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的,请参阅中的排毒算法。 GitHub

将可用指标应用于文本摘要任务类型时,该如何计算每个指标
  • 准确性:对于此指标,该值是使用BERT分数计算的。BERT分数是使用模型中预训练的上下文嵌入计算得出的。BERT它通过余弦相似性来匹配候选句子和参考句子中的字词。

  • 稳健性:对于这个指标,计算得出的值为百分比。它通过取 (增量BERTScore/BERTScore) x 100 来计算。Delta BERTScore 是数据集中受干扰的提示和原始提示之间BERT分数的差异。系统会对数据集中的每个提示进行大约 5 次的扰动。然后,发送每个经过扰动的响应以进行推理,并用它们自动计算稳健性分数。分数越低,表示所选模型的稳健性越高。

  • 毒性:这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的,请参阅中的排毒算法。 GitHub

将可用指标应用于问答任务类型时,该如何计算每个指标
  • 准确性:对于这个指标,计算得出的值为 F1 分数。F1 分数的计算方法是用查准率分数(正确预测与所有预测的比率)除以查全率分数(正确预测与相关预测总数的比率)。F1 分数的范围为 0 到 1,值越高表示性能越好。

  • 稳健性:对于这个指标,计算得出的值为百分比。具体计算公式为:(F1 增量 / F1) x 100。Delta F1 是数据集中受干扰的提示和原始提示之间的 F1 分数差异。系统会对数据集中的每个提示进行大约 5 次的扰动。然后,发送每个经过扰动的响应以进行推理,并用它们自动计算稳健性分数。分数越低,表示所选模型的稳健性越高。

  • 毒性:这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的,请参阅中的排毒算法。 GitHub

将可用指标应用于文本分类任务类型时,该如何计算每个指标
  • 准确性:对于这个指标,计算得出的值为准确度。准确性是将预测的类别与其真实情况标签进行比较得出的分数。更高的准确性表示模型正在根据提供的真实情况标签正确地对文本进行分类。

  • 稳健性:对于这个指标,计算得出的值为百分比。计算方法为(增量分类精度分数/分类精度分数)x 100。Delta 分类准确度分数是受干扰的提示和原始输入提示的分类准确度分数之间的差异。系统会对数据集中的每个提示进行大约 5 次的扰动。然后,发送每个经过扰动的响应以进行推理,并用它们自动计算稳健性分数。分数越低,表示所选模型的稳健性越高。