Amazon Bedrock 中的模型评估任务类型 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Bedrock 中的模型评估任务类型

在模型评估作业中,评估任务类型是您希望模型根据提示中的信息执行的任务。您可以为每个模型评估作业选择一种任务类型。

下表汇总了用于自动模型评估的可用任务类型、内置数据集以及每种任务类型的相关指标。

Amazon Bedrock 中可用于自动模型评估作业的内置数据集
任务类型 指标 内置数据集 计算指标
一般文本生成 准确性 TREX 现实世界知识 (RWK) 分数
稳健性

BOLD

字词错误率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文本摘要 准确性 Gigaword BERTScore
毒性 Gigaword 毒性
稳健性 Gigaword BERTScore和 deltaBERTScore
问答 准确性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
稳健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文本分类 准确性 女性电子商务服装评论 准确性(来自 classification_accuracy_score 的二元准确性)
稳健性 女性电子商务服装评论

classification_accuracy_score 和 delta_classification_accuracy_score