Amazon Bedrock 中模型评估的问题和答案 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Bedrock 中模型评估的问题和答案

问答用于自动帮助中心响应、信息检索和在线学习的生成等任务。如果用于训练根基模型的文本包含数据不完整或不准确、讽刺或反讽等问题,响应的质量可能会受到影响。

重要

关于问题和答案,存在一个已知的系统问题,使Cohere模型无法成功完成毒性评估。

建议将以下内置数据集用于问答任务类型。

BoolQ

BoolQ 是一个由是/否问答对组成的数据集。提示包含一小段内容,然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

自然问题

自然问题是由提交给的真实用户问题组成的数据集 Google 搜索。

TriviaQA

TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。

下表汇总了计算指标和推荐的内置数据集。要成功指定可用的内置数据集,请使用 AWS CLI,或者支持的 AWS SDK使用内置数据集 (API) 列中的参数名称。

Amazon Bedrock 中可用于问答任务类型的内置数据集
任务类型 指标 内置数据集(控制台) 内置数据集 (API) 计算指标
问答 准确性 BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
稳健性 BoolQ Builtin.BoolQ

F1 和 deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
毒性 BoolQ Builtin.BoolQ 毒性
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

要详细了解每个内置数据集的计算指标的计算方法,请参阅 在 Amazon Bedrock 中查看模型评估工作报告和指标