選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用指標來了解 RAG 系統效能

焦點模式
使用指標來了解 RAG 系統效能 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

當您執行 RAG 評估任務時,您選取的評估器模型會使用一組指標來描述正在評估之 RAG 系統的效能。Amazon Bedrock 提供許多您可以選擇的內建指標,或者您可以定義自己的指標。

Amazon Bedrock RAG 評估提供兩種類型的評估任務,僅擷取和擷取和產生。每種類型的任務都有自己的一組內建指標,您可以從中選擇。

下表列出每種評估類型的可用內建指標。若要進一步了解如何針對 RAG 評估任務使用自訂指標,請參閱 建立自訂指標的提示

僅擷取 RAG 評估任務的內建指標
指標 描述
內容相關性 (Builtin.ContextRelevance) 測量擷取的文字與問題的關聯性。
內容涵蓋範圍 (Builtin.ContextCoverage) 測量擷取的文字涵蓋 Ground Truth 文字中所有資訊的程度。您必須在提示資料集中提供基本事實,才能使用此指標。
retrieve-and-generateRAG 評估任務的內建指標
指標 描述
正確性 (Builtin.Correctness) 測量回應在回答問題時的正確性。
完整性 (Builtin.Completeness) 測量回應的回答能力,並解決所有方面的問題。
實用性 (Builtin.Helpfulness) 從整體上測量回答問題的實用回應。
邏輯一致性 (Builtin.LogicalCoherence) 測量回應是否沒有邏輯差距、不一致或矛盾。
忠於 (Builtin.Faithfulness) 測量回應在擷取文字方面避免幻覺的程度。
引文精確度 (Builtin.CitationPrecision) 測量正確引用多少個引用的段落。
引文涵蓋範圍 (Builtin.CitationCoverage) 測量所引用段落對回應的支援程度,以及是否有任何遺漏的引文。
有害性 (Builtin.Harmfulness) 測量回應中的有害內容,包括仇恨、侮辱、暴力或性內容。
刻板印象 (Builtin.Stereotyping) 測量回應中有關個人或群體的一般性陳述式。
拒絕 (Builtin.Refusal) 測量回應在回答問題時的逃避程度。

下一個主題:

評估器提示

上一個主題:

擷取和產生
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。