本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon Bedrock 中使用提示資料集進行模型評估
若要建立自動模型評估任務,您必須指定提示資料集。然後,在推論期間,系統會使用您選取要評估的模型來使用提示。Amazon Bedrock 提供可用於自動模型評估的內建資料集,或者您也可以使用自己的提示資料集。
請參閱以下各節,進一步了解可用的內建提示資料集,以及建立自訂提示資料集。
在 Amazon Bedrock 中使用內建提示資料集進行自動模型評估
Amazon Bedrock 提供多個內建提示資料集,您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已隨機取樣每個開放原始碼資料集,只包含 100 個提示。
當您建立自動模型評估任務並選擇任務類型時,Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型,請參閱 Amazon Bedrock 中的模型評估任務類型。
- 開放式語言產生資料集中的偏差 (BOLD)
-
開放式語言產生資料集中的偏差 (BOLD) 是一種資料集,可評估一般文字產生中的公平性,著重於五個領域:專業、性別、種族、宗教意識和政治意識。它包含 23,679 個不同的文字產生提示。
- RealToxicityPrompts
-
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。
- T-Rex :自然語言與知識庫三元的大規模對齊 (TREX)
-
TREX 是資料集,由擷取自 Wikipedia 的知識庫三元組 (KBTs) 組成。 KBTs 是一種用於自然語言處理 (NLP) 和知識表示法的資料結構類型。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫三元組 (KBT) 的範例是「George Washington 是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。
- WikiText2
-
WikiText2 是包含一般文字產生中使用的提示的 HuggingFace 資料集。
- Gigaword
-
Gigaword 資料集包含新聞文章標題。此資料集用於文字摘要任務。
- BoolQ
-
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。
- 一般問題
-
自然問題是資料集,包含提交給 的真實使用者問題 Google 搜尋。
- TriviaQA
-
TriviaQA 是包含超過 650K 的資料集question-answer-evidence-triples。此資料集用於問答型任務。
- 女性電子商務服裝評論
-
女性電子商務服裝評論是一個資料集,其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。
在下表中,您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標,請參閱 在 Amazon Bedrock 中檢閱自動化模型評估任務的指標 (主控台)。
任務類型 | 指標 | 內建資料集 | 計算指標 |
---|---|---|---|
產生一般文字 | 準確性 | TREX |
真實世界知識 (RWK) 分數 |
強健性 | 單字錯誤率 | ||
TREX |
|||
WikiText2 |
|||
毒性 | 毒性 | ||
BOLD |
|||
文字摘要 | 準確性 | Gigaword |
BERTScore |
毒性 | Gigaword |
毒性 | |
強健性 | Gigaword |
BERTScore 和 deltaBERTScore | |
問題和解答 | 準確性 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
強健性 | BoolQ |
F1 和 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
毒性 | BoolQ |
毒性 | |
NaturalQuestions |
|||
TriviaQA |
|||
文字分類 | 準確性 | 女性電子商務服裝評論 |
準確度 (來自 classification_accuracy_score 的二進位準確度) |
強健性 | 女性電子商務服裝評論 |
classification_accuracy_score 和 delta_classification_accuracy_score |
若要進一步了解建立需求和自訂提示資料集的範例,請參閱 在 Amazon Bedrock 中使用自訂提示資料集進行模型評估。
在 Amazon Bedrock 中使用自訂提示資料集進行模型評估
您可以在自動模型評估任務中建立自訂提示資料集。自訂提示資料集必須存放在 Amazon S3 中,並使用JSON行格式並使用.jsonl
副檔名。每行必須是有效的JSON物件。每個自動評估任務在您的資料集中最多可有 1000 個提示。
對於使用主控台建立的任務,您必須更新 S3 儲存貯體上的跨來源資源共享 (CORS) 組態。若要進一步了解必要的CORS許可,請參閱 S3 儲存貯體上所需的跨來源資源共用 (CORS) 許可。
您必須在自訂資料集中使用下列索引鍵值對。
-
prompt
– 指示下列任務的輸入所需:-
在一般文字產生中,您的模型應該回應的提示。
-
您的模型應該在問答任務類型中回答的問題。
-
您的模型應該在文字摘要任務總結的文字。
-
您的模型應在分類任務中分類的文字。
-
-
referenceResponse
– 必須指出針對下列任務類型評估模型回應的基本事實:-
問答任務中所有提示的答案。
-
所有準確性和強健性評估的答案。
-
-
category
– (選用) 產生針對每個類別報告的評估分數。
例如,準確性需要同時提出的問題,以及檢查模型回應的答案。在此範例中,使用索引鍵 prompt
與問題中包含的值,以及包含在答案中的值的索引鍵 referenceResponse
,如下所示。
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
上一個範例是JSON一行輸入檔案的單行,它將作為推論請求傳送至您的模型。系統會針對您JSON行資料集中的每個此類記錄叫用模型。下列資料輸入範例適用於使用選擇性 category
索引鍵進行評估的問答任務。
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}