Amazon Bedrock 中用于模型评测的问答

问答用于自动帮助中心响应、信息检索和在线学习的生成等任务。如果用于训练根基模型的文本包含数据不完整或不准确、讽刺或反讽等问题，响应的质量可能会受到影响。

对于问答，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

建议将以下内置数据集用于问答任务类型。

BoolQ: BoolQ 是一个由 yes/no 问答对组成的数据集。提示包含一小段内容，然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。
自然问题: 自然问题是由提交给 Google 搜索的真实用户问题组成的数据集。
TriviaQA: TriviaQA 是一个数据集，包含超过 65 万个“问题-答案-证据”三元组。此数据集用于问答任务。

下表汇总了计算指标和推荐的内置数据集。要使用或支持的 AWS SDK 成功指定可用的内置数据集 AWS CLI，请使用Built-in数据集 (API) 列中的参数名称。

Amazon Bedrock 中可用于问答任务类型的内置数据集
任务类型	指标	Built-in 数据集（控制台）	Built-in 数据集 (API)	计算指标
问答	准确性	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	稳健性	BoolQ	`Builtin.BoolQ`	F1 和 deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	毒性	BoolQ	`Builtin.BoolQ`	毒性
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

要详细了解每个内置数据集的计算指标的计算方法，请参阅在 Amazon Bedrock 中查看模型评测作业报告和指标。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文本摘要

文本分类