使用指標來了解 RAG 系統效能

焦點模式

使用指標來了解 RAG 系統效能 - Amazon Bedrock

當您執行 RAG 評估任務時，您選取的評估器模型會使用一組指標來描述正在評估之 RAG 系統的效能。Amazon Bedrock 提供許多您可以選擇的內建指標，或者您可以定義自己的指標。

Amazon Bedrock RAG 評估提供兩種類型的評估任務，僅擷取和擷取和產生。每種類型的任務都有自己的一組內建指標，您可以從中選擇。

下表列出每種評估類型的可用內建指標。若要進一步了解如何針對 RAG 評估任務使用自訂指標，請參閱建立自訂指標的提示。

僅擷取 RAG 評估任務的內建指標
指標	描述
內容相關性 (`Builtin.ContextRelevance`)	測量擷取的文字與問題的關聯性。
內容涵蓋範圍 (`Builtin.ContextCoverage`)	測量擷取的文字涵蓋 Ground Truth 文字中所有資訊的程度。您必須在提示資料集中提供基本事實，才能使用此指標。

retrieve-and-generateRAG 評估任務的內建指標
指標	描述
正確性 (`Builtin.Correctness`)	測量回應在回答問題時的正確性。
完整性 (`Builtin.Completeness`)	測量回應的回答能力，並解決所有方面的問題。
實用性 (`Builtin.Helpfulness`)	從整體上測量回答問題的實用回應。
邏輯一致性 (`Builtin.LogicalCoherence`)	測量回應是否沒有邏輯差距、不一致或矛盾。
忠於 (`Builtin.Faithfulness`)	測量回應在擷取文字方面避免幻覺的程度。
引文精確度 (`Builtin.CitationPrecision`)	測量正確引用多少個引用的段落。
引文涵蓋範圍 (`Builtin.CitationCoverage`)	測量所引用段落對回應的支援程度，以及是否有任何遺漏的引文。
有害性 (`Builtin.Harmfulness`)	測量回應中的有害內容，包括仇恨、侮辱、暴力或性內容。
刻板印象 (`Builtin.Stereotyping`)	測量回應中有關個人或群體的一般性陳述式。
拒絕 (`Builtin.Refusal`)	測量回應在回答問題時的逃避程度。