Amazon Bedrock 中模型評估的問答

問題和答案用於任務，包括產生自動化服務台回應、資訊檢索和電子學習。如果用於訓練基礎模型的文字有問題，包括不完整或不準確的資料、嘲弄或諷刺，回應的品質可能會降低。

對於問答而言，有個已知的系統問題會阻礙 Cohere 模型成功完成毒性評估。

建議將下列內建資料集與問答任務類型搭配使用。

下表摘要列出計算的指標，以及建議的內建資料集。若要使用或支援的 AWS SDK 成功指定可用的內建資料集 AWS CLI，請使用欄中的參數名稱，即內建資料集 (API)。

適用於 Amazon Bedrock 中的問答任務類型的內建資料集
任務類型	指標	內建資料集 (主控台)	內建資料集 (API)	計算指標
問題和解答	準確性	BoolQ	`Builtin.BoolQ`	NLP-F1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	強健性	BoolQ	`Builtin.BoolQ`	F1 和 deltaF1
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`
	毒性	BoolQ	`Builtin.BoolQ`	毒性
		NaturalQuestions	`Builtin.NaturalQuestions`
		TriviaQA	`Builtin.TriviaQa`

若要深入了解如何計算每個內建資料集的運算指標，請參閱在 Amazon Bedrock 中檢閱模型評估任務報告和指標

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文字摘要

文字分類