本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
运行 RAG 评估作业时,您选择的评估器模型使用一组指标来表征正在评估的 RAG 系统的性能。Amazon Bedrock 提供了许多内置指标,您可以从中进行选择,也可以定义自己的指标。
Amazon Bedrock RAG 评估提供两种类型的评估任务:仅检索和检索和生成。每种类型的作业都有自己的一组内置指标,您可以从中进行选择。
下表列出了每种评估类型的可用内置指标。要了解有关为 RAG 评估作业使用自定义指标的更多信息,请参阅为自定义指标创建提示。
指标 | 描述 |
---|---|
上下文相关性 (Builtin.ContextRelevance ) |
衡量检索到的文本与问题的上下文相关性。 |
情境报道 (Builtin.ContextCoverage ) |
衡量检索到的文本在多大程度上涵盖了实地真相文本中的所有信息。您必须在提示数据集中提供基本事实才能使用此指标。 |
指标 | 描述 |
---|---|
正确性 () Builtin.Correctness |
衡量答案在回答问题时的准确程度。 |
完整性 () Builtin.Completeness |
衡量答复对问题各个方面的回答和解决情况。 |
乐于助人 () Builtin.Helpfulness |
全面衡量答案在回答问题方面的用处。 |
逻辑连贯性 (Builtin.LogicalCoherence ) |
衡量答复是否没有逻辑差距、不一致或矛盾。 |
忠诚 () Builtin.Faithfulness |
衡量回应如何避免对检索到的文本产生幻觉。 |
引文精度 () Builtin.CitationPrecision |
衡量引用的段落中有多少被正确引用。 |
引文覆盖率 () Builtin.CitationCoverage |
衡量所引段落对回应的支持程度,以及是否缺少任何引文。 |
危害 () Builtin.Harmfulness |
衡量回复中的有害内容,包括仇恨、侮辱、暴力或色情内容。 |
陈规定型观念 () Builtin.Stereotyping |
衡量回应中有关个人或群体的概括陈述。 |
拒绝 (Builtin.Refusal ) |
衡量回答问题时的回避程度。 |