在 Amazon Bedrock（控制台）中查看自动模型评测作业的指标

您可以使用 Amazon Bedrock 控制台查看自动模型评测作业报告中显示的指标。

在模型评测报告卡中，可以看到您提供或选择的数据集中的提示总数，以及其中有多少提示收到了响应。如果响应数少于输入提示数，请务必检查 Amazon S3 存储桶中的数据输出文件。提示可能导致模型出错，未检索到任何推理。只有来自模型的响应才会用于指标计算。

通过以下过程，在 Amazon Bedrock 控制台上查看自动模型评估作业。

在所有与语义稳健性相关的指标中，Amazon Bedrock 通过以下方式扰乱提示：将文本转换为所有小写字母、键盘错别字、将数字转换为单词、随机更改为大写以及随机更改空格。 addition/deletion

打开模型评估报告后，您可以查看作业的汇总指标和作业配置摘要。

对于创建作业时指定的每个指标和提示数据集，您都会看到一张卡，以及为该指标指定的每个数据集的值。这个值的计算方式会根据任务类型和您选择的指标而变化。

准确性：这个指标的值是使用现实世界知识分数（RWK 分数）计算得出的。RWK 分数考察模型对现实世界的事实性知识进行编码的能力。RWK 分数高表示您的模型是准确的。
稳健性：这个指标的值是使用语义稳健性计算得出的。而后者是使用字词错误率计算得出的。语义稳健性衡量模型输出因输入中微小的语义保持扰动而导致的变化程度。针对此类扰动的稳健性是一种理想属性，因此，语义稳健性分数较低，表明您的模型表现良好。

我们将考虑的扰动类型是：将文本转换为所有小写字母、键盘错别字、将数字转换为单词、随机更改为大写以及随 addition/deletion 机更改空格。系统会对数据集中的每个提示进行大约 5 次的扰动。然后，发送每个经过扰动的响应以进行推理，并用它们自动计算稳健性分数。
毒性：这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的，请参阅中的排毒算法。 GitHub

准确性：这个指标的值是使用 BERT 分数计算得出的。BERT 分数是使用来自 BERT 模型的预训练上下文嵌入计算得出的。它通过余弦相似性来匹配候选句子和参考句子中的字词。
稳健性：对于这个指标，计算得出的值为百分比。它的计算方法是：(Delta BERTScore / BERTScore) x 100。Delta BERTScore 是数据集中受扰动提示的 BERT 分数与原始提示的 BERT 分数之间的差值。系统会对数据集中的每个提示进行大约 5 次的扰动。然后，发送每个经过扰动的响应以进行推理，并用它们自动计算稳健性分数。分数越低，表示所选模型的稳健性越高。
毒性：这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的，请参阅中的排毒算法。 GitHub

准确性：对于这个指标，计算得出的值为 F1 分数。F1 分数的计算方法是用查准率分数（正确预测与所有预测的比率）除以查全率分数（正确预测与相关预测总数的比率）。F1 分数的范围为 0 到 1，值越高表示性能越好。
稳健性：对于这个指标，计算得出的值为百分比。具体计算公式为：(F1 增量 / F1) x 100。F1 增量是数据集中受扰动提示与原始提示的 F1 分数之间的差值。系统会对数据集中的每个提示进行大约 5 次的扰动。然后，发送每个经过扰动的响应以进行推理，并用它们自动计算稳健性分数。分数越低，表示所选模型的稳健性越高。
毒性：这个指标的值是使用解毒算法中的毒性计算得出的。低毒性值表示您选择的模型不会生成大量毒性内容。要了解有关排毒算法的更多信息并了解毒性是如何计算的，请参阅中的排毒算法。 GitHub

准确性：对于这个指标，计算得出的值为准确度。准确性是将预测的类别与其真实情况标签进行比较得出的分数。更高的准确性表示模型正在根据提供的真实情况标签正确地对文本进行分类。
稳健性：对于这个指标，计算得出的值为百分比。具体计算公式为：（分类准确性分数增量 / 分类准确性分数）x 100。分类准确性分数增量是指受扰动提示和原始输入提示的分类准确性分数之间的差值。系统会对数据集中的每个提示进行大约 5 次的扰动。然后，发送每个经过扰动的响应以进行推理，并用它们自动计算稳健性分数。分数越低，表示所选模型的稳健性越高。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型评测的报告和指标

查看人工模型评测作业