Amazon 基岩中模型評估的問題和答案 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon 基岩中模型評估的問題和答案

問題和答案用於任務,包括產生自動化服務台回應、資訊檢索和電子學習。如果用於訓練基礎模型的文字有問題,包括不完整或不準確的資料、嘲弄或諷刺,回應的品質可能會降低。

重要

對於問答,存在一個已知的系統問題,使 Cohere 模型無法成功完成毒性評估。

建議搭配問題和答案工作類型使用下列內建資料集。

BoolQ

BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

一般問題

自然問題是由真實使用者問題所組成的資料集 Google 搜索。

TriviaQA

特里維亞卡是一個包含超過 650 萬的數據集。question-answer-evidence-triples此資料集用於問答型任務。

下表摘要列出計算的指標,以及建議的內建資料集。若要使用 AWS CLI,或支援 AWS SDK使用內建資料集 (API) 資料行中的參數名稱。

適用於 Amazon Bedrock 中的問答任務類型的內建資料集
任務類型 指標 內建資料集 (主控台) 內建資料集 (API) 計算指標
問題和解答 準確性 BoolQ Builtin.BoolQ NLP-F1
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
強健性 BoolQ Builtin.BoolQ

F1 和 deltaF1

NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa
毒性 BoolQ Builtin.BoolQ 毒性
NaturalQuestions Builtin.NaturalQuestions
TriviaQA Builtin.TriviaQa

若要深入了解如何計算每個內建資料集的運算指標,請參閱 在 Amazon 基岩中查看模型評估工作報告和指標