使用指标来了解 RAG 系统性能

聚焦模式

使用指标来了解 RAG 系统性能 - Amazon Bedrock

运行 RAG 评估作业时，您选择的评估器模型使用一组指标来表征正在评估的 RAG 系统的性能。Amazon Bedrock 提供了许多内置指标，您可以从中进行选择，也可以定义自己的指标。

Amazon Bedrock RAG 评估提供两种类型的评估任务：仅检索和检索和生成。每种类型的作业都有自己的一组内置指标，您可以从中进行选择。

下表列出了每种评估类型的可用内置指标。要了解有关为 RAG 评估作业使用自定义指标的更多信息，请参阅为自定义指标创建提示。

仅限检索的 RAG 评估作业的内置指标
指标	描述
上下文相关性 (`Builtin.ContextRelevance`)	衡量检索到的文本与问题的上下文相关性。
情境报道 (`Builtin.ContextCoverage`)	衡量检索到的文本在多大程度上涵盖了实地真相文本中的所有信息。您必须在提示数据集中提供基本事实才能使用此指标。

retrieve-and-generateRAG 评估作业的内置指标
指标	描述
正确性 () `Builtin.Correctness`	衡量答案在回答问题时的准确程度。
完整性 () `Builtin.Completeness`	衡量答复对问题各个方面的回答和解决情况。
乐于助人 () `Builtin.Helpfulness`	全面衡量答案在回答问题方面的用处。
逻辑连贯性 (`Builtin.LogicalCoherence`)	衡量答复是否没有逻辑差距、不一致或矛盾。
忠诚 () `Builtin.Faithfulness`	衡量回应如何避免对检索到的文本产生幻觉。
引文精度 () `Builtin.CitationPrecision`	衡量引用的段落中有多少被正确引用。
引文覆盖率 () `Builtin.CitationCoverage`	衡量所引段落对回应的支持程度，以及是否缺少任何引文。
危害 () `Builtin.Harmfulness`	衡量回复中的有害内容，包括仇恨、侮辱、暴力或色情内容。
陈规定型观念 () `Builtin.Stereotyping`	衡量回应中有关个人或群体的概括陈述。
拒绝 (`Builtin.Refusal`)	衡量回答问题时的回避程度。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

检索并生成

评估器提示

选择您的 Cookie 首选项