选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

使用指标来了解 RAG 系统性能

聚焦模式
使用指标来了解 RAG 系统性能 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行 RAG 评估作业时,您选择的评估器模型使用一组指标来表征正在评估的 RAG 系统的性能。Amazon Bedrock 提供了许多内置指标,您可以从中进行选择,也可以定义自己的指标。

Amazon Bedrock RAG 评估提供两种类型的评估任务:仅检索和检索和生成。每种类型的作业都有自己的一组内置指标,您可以从中进行选择。

下表列出了每种评估类型的可用内置指标。要了解有关为 RAG 评估作业使用自定义指标的更多信息,请参阅为自定义指标创建提示

仅限检索的 RAG 评估作业的内置指标
指标 描述
上下文相关性 (Builtin.ContextRelevance) 衡量检索到的文本与问题的上下文相关性。
情境报道 (Builtin.ContextCoverage) 衡量检索到的文本在多大程度上涵盖了实地真相文本中的所有信息。您必须在提示数据集中提供基本事实才能使用此指标。
retrieve-and-generateRAG 评估作业的内置指标
指标 描述
正确性 () Builtin.Correctness 衡量答案在回答问题时的准确程度。
完整性 () Builtin.Completeness 衡量答复对问题各个方面的回答和解决情况。
乐于助人 () Builtin.Helpfulness 全面衡量答案在回答问题方面的用处。
逻辑连贯性 (Builtin.LogicalCoherence) 衡量答复是否没有逻辑差距、不一致或矛盾。
忠诚 () Builtin.Faithfulness 衡量回应如何避免对检索到的文本产生幻觉。
引文精度 () Builtin.CitationPrecision 衡量引用的段落中有多少被正确引用。
引文覆盖率 () Builtin.CitationCoverage 衡量所引段落对回应的支持程度,以及是否缺少任何引文。
危害 () Builtin.Harmfulness 衡量回复中的有害内容,包括仇恨、侮辱、暴力或色情内容。
陈规定型观念 () Builtin.Stereotyping 衡量回应中有关个人或群体的概括陈述。
拒绝 (Builtin.Refusal) 衡量回答问题时的回避程度。
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。