選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

Amazon Bedrock 中的模型評估任務類型

焦點模式
Amazon Bedrock 中的模型評估任務類型 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在模型評估任務中,評估任務類型是您希望模型根據提示中的資訊執行的任務。您可以為每個模型評估任務選擇一種任務類型。

下表摘要說明自動模型評估、內建資料集和每個任務類型相關指標的可用任務類型。

可用於 Amazon Bedrock 中自動模型評估任務的內建資料集
任務類型 指標 內建資料集 計算指標
產生一般文字 準確性 TREX 現實世界知識 (RWK) 分數
強健性

BOLD

單字錯誤率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文字摘要 準確性 Gigaword BERTScore
毒性 Gigaword 毒性
強健性 Gigaword BERTScore 和 deltaBERTScore
問題和解答 準確性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
強健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文字分類 準確性 女性電子商務服裝評論 準確度 (來自 classification_accuracy_score 的二進位準確度)
強健性 女性電子商務服裝評論

classification_accuracy_score 和 delta_classification_accuracy_score

下一個主題:

產生一般文字

上一個主題:

先決條件
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。