在 Amazon Bedrock 中使用提示資料集進行模型評估 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon Bedrock 中使用提示資料集進行模型評估

若要建立自動模型評估任務,您必須指定提示資料集。然後,在推論期間,系統會使用您選取要評估的模型來使用提示。Amazon Bedrock 提供可用於自動模型評估的內建資料集,或者您也可以使用自己的提示資料集。

請參閱以下各節,進一步了解可用的內建提示資料集,以及建立自訂提示資料集。

在 Amazon Bedrock 中使用內建提示資料集進行自動模型評估

Amazon Bedrock 提供多個內建提示資料集,您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已隨機取樣每個開放原始碼資料集,只包含 100 個提示。

當您建立自動模型評估任務並選擇任務類型時,Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型,請參閱 Amazon Bedrock 中的模型評估任務類型

開放式語言產生資料集中的偏差 (BOLD)

開放式語言產生資料集中的偏差 (BOLD) 是一種資料集,可評估一般文字產生中的公平性,著重於五個領域:專業、性別、種族、宗教意識和政治意識。它包含 23,679 個不同的文字產生提示。

RealToxicityPrompts

RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

T-Rex :自然語言與知識庫三元的大規模對齊 (TREX)

TREX 是資料集,由擷取自 Wikipedia 的知識庫三元組 (KBTs) 組成。 KBTs 是一種用於自然語言處理 (NLP) 和知識表示法的資料結構類型。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT) 的範例是「George Washington 是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。

WikiText2

WikiText2 是包含一般文字產生中使用的提示的 HuggingFace 資料集。

Gigaword

Gigaword 資料集包含新聞文章標題。此資料集用於文字摘要任務。

BoolQ

BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

一般問題

自然問題是資料集,包含提交給 的真實使用者問題 Google 搜尋。

TriviaQA

TriviaQA 是包含超過 650K 的資料集question-answer-evidence-triples。此資料集用於問答型任務。

女性電子商務服裝評論

女性電子商務服裝評論是一個資料集,其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。

在下表中,您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標,請參閱 在 Amazon Bedrock 中檢閱自動化模型評估任務的指標 (主控台)

可用於 Amazon Bedrock 中自動模型評估任務的內建資料集
任務類型 指標 內建資料集 計算指標
產生一般文字 準確性 TREX 真實世界知識 (RWK) 分數
強健性

BOLD

單字錯誤率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文字摘要 準確性 Gigaword BERTScore
毒性 Gigaword 毒性
強健性 Gigaword BERTScore 和 deltaBERTScore
問題和解答 準確性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
強健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文字分類 準確性 女性電子商務服裝評論 準確度 (來自 classification_accuracy_score 的二進位準確度)
強健性 女性電子商務服裝評論

classification_accuracy_score 和 delta_classification_accuracy_score

若要進一步了解建立需求和自訂提示資料集的範例,請參閱 在 Amazon Bedrock 中使用自訂提示資料集進行模型評估

在 Amazon Bedrock 中使用自訂提示資料集進行模型評估

您可以在自動模型評估任務中建立自訂提示資料集。自訂提示資料集必須存放在 Amazon S3 中,並使用JSON行格式並使用.jsonl副檔名。每行必須是有效的JSON物件。每個自動評估任務在您的資料集中最多可有 1000 個提示。

對於使用主控台建立的任務,您必須更新 S3 儲存貯體上的跨來源資源共享 (CORS) 組態。若要進一步了解必要的CORS許可,請參閱 S3 儲存貯體上所需的跨來源資源共用 (CORS) 許可

您必須在自訂資料集中使用下列索引鍵值對。

  • prompt – 指示下列任務的輸入所需:

    • 在一般文字產生中,您的模型應該回應的提示。

    • 您的模型應該在問答任務類型中回答的問題。

    • 您的模型應該在文字摘要任務總結的文字。

    • 您的模型應在分類任務中分類的文字。

  • referenceResponse – 必須指出針對下列任務類型評估模型回應的基本事實:

    • 問答任務中所有提示的答案。

    • 所有準確性和強健性評估的答案。

  • category – (選用) 產生針對每個類別報告的評估分數。

例如,準確性需要同時提出的問題,以及檢查模型回應的答案。在此範例中,使用索引鍵 prompt 與問題中包含的值,以及包含在答案中的值的索引鍵 referenceResponse,如下所示。

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

上一個範例是JSON一行輸入檔案的單行,它將作為推論請求傳送至您的模型。系統會針對您JSON行資料集中的每個此類記錄叫用模型。下列資料輸入範例適用於使用選擇性 category 索引鍵進行評估的問答任務。

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}