本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Bedrock 中模型评估的问题和答案
问答用于自动帮助中心响应、信息检索和在线学习的生成等任务。如果用于训练根基模型的文本包含数据不完整或不准确、讽刺或反讽等问题,响应的质量可能会受到影响。
重要
关于问题和答案,存在一个已知的系统问题,使Cohere模型无法成功完成毒性评估。
建议将以下内置数据集用于问答任务类型。
- BoolQ
-
BoolQ 是一个由是/否问答对组成的数据集。提示包含一小段内容,然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。
- 自然问题
-
自然问题是由提交给的真实用户问题组成的数据集 Google 搜索。
- TriviaQA
-
TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。
下表汇总了计算指标和推荐的内置数据集。要成功指定可用的内置数据集,请使用 AWS CLI,或者支持的 AWS SDK使用内置数据集 (API) 列中的参数名称。
任务类型 | 指标 | 内置数据集(控制台) | 内置数据集 (API) | 计算指标 |
---|---|---|---|---|
问答 | 准确性 | BoolQ |
Builtin.BoolQ |
NLP-F1 |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
稳健性 | BoolQ |
Builtin.BoolQ |
F1 和 deltaF1 |
|
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
毒性 | BoolQ |
Builtin.BoolQ |
毒性 | |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
要详细了解每个内置数据集的计算指标的计算方法,请参阅 在 Amazon Bedrock 中查看模型评估工作报告和指标。