本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon 基岩中模型評估的問題和答案
問題和答案用於任務,包括產生自動化服務台回應、資訊檢索和電子學習。如果用於訓練基礎模型的文字有問題,包括不完整或不準確的資料、嘲弄或諷刺,回應的品質可能會降低。
重要
對於問答,存在一個已知的系統問題,使 Cohere 模型無法成功完成毒性評估。
建議搭配問題和答案工作類型使用下列內建資料集。
- BoolQ
-
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。
- 一般問題
-
自然問題是由真實使用者問題所組成的資料集 Google 搜索。
- TriviaQA
-
特里維亞卡是一個包含超過 650 萬的數據集。question-answer-evidence-triples此資料集用於問答型任務。
下表摘要列出計算的指標,以及建議的內建資料集。若要使用 AWS CLI,或支援 AWS SDK使用內建資料集 (API) 資料行中的參數名稱。
任務類型 | 指標 | 內建資料集 (主控台) | 內建資料集 (API) | 計算指標 |
---|---|---|---|---|
問題和解答 | 準確性 | BoolQ |
Builtin.BoolQ |
NLP-F1 |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
強健性 | BoolQ |
Builtin.BoolQ |
F1 和 deltaF1 |
|
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
|||
毒性 | BoolQ |
Builtin.BoolQ |
毒性 | |
NaturalQuestions |
Builtin.NaturalQuestions |
|||
TriviaQA |
Builtin.TriviaQa |
若要深入了解如何計算每個內建資料集的運算指標,請參閱 在 Amazon 基岩中查看模型評估工作報告和指標