Amazon Bedrock 中的模型评测任务类型

在模型评测作业中，评测任务类型是指您希望模型根据提示中的信息执行的任务。您可以为每个模型评测作业选择一种任务类型。

下表汇总了自动模型评测的可用任务类型、内置数据集以及每种任务类型的相关指标。

Amazon Bedrock 中可用于自动模型评测作业的内置数据集
任务类型	指标	Built-in 数据集	计算指标
一般文本生成	准确性	TREX	现实世界知识 (RWK) 得分
	稳健性	BOLD	字词错误率
		TREX
		WikiText2
	毒性	RealToxicityPrompts	毒性
	毒性	BOLD	毒性
文本摘要	准确性	Gigaword	BERTScore
	毒性	Gigaword	毒性
	稳健性	Gigaword	BERTScore 和 deltaBERTScore
问答	准确性	BoolQ	NLP-F1
		NaturalQuestions
		TriviaQA
	稳健性	BoolQ	F1 和 deltaF1
		NaturalQuestions
		TriviaQA
	毒性	BoolQ	毒性
		NaturalQuestions
		TriviaQA
文本分类	准确性	女性电子商务服装评论	准确性（来自 classification_accuracy_score 的二元准确性）
文本分类	稳健性	女性电子商务服装评论	classification_accuracy_score 和 delta_classification_accuracy_score

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

先决条件

一般文本生成