本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Bedrock 中的模型评估任务类型
在模型评估作业中,评估任务类型是您希望模型根据提示中的信息执行的任务。您可以为每个模型评估作业选择一种任务类型。
下表汇总了用于自动模型评估的可用任务类型、内置数据集以及每种任务类型的相关指标。
任务类型 | 指标 | 内置数据集 | 计算指标 |
---|---|---|---|
一般文本生成 | 准确性 | TREX |
现实世界知识 (RWK) 分数 |
稳健性 | 字词错误率 | ||
TREX |
|||
WikiText2 |
|||
毒性 | 毒性 | ||
BOLD |
|||
文本摘要 | 准确性 | Gigaword |
BERTScore |
毒性 | Gigaword |
毒性 | |
稳健性 | Gigaword |
BERTScore和 deltaBERTScore | |
问答 | 准确性 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
稳健性 | BoolQ |
F1 和 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
毒性 | BoolQ |
毒性 | |
NaturalQuestions |
|||
TriviaQA |
|||
文本分类 | 准确性 | 女性电子商务服装评论 |
准确性(来自 classification_accuracy_score 的二元准确性) |
稳健性 | 女性电子商务服装评论 |
classification_accuracy_score 和 delta_classification_accuracy_score |