模型評估 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型評估

Amazon Bedrock 支援模型評估任務。模型評估工作的結果可讓您比較模型輸出,然後選擇最適合下游生成 AI 應用程式的模型。

模型評估工作支援大型語言模型 (LLM) 的常見使用案例,例如文字產生、文字分類、問題回答和文字摘要。

若要評估模型對自動模型評估工作的效能,您可以使用內建的提示資料集或您自己的提示資料集。對於使用 Worker 的模型評估工作,您必須自己的資料集。

您可以選擇建立自動模型評估任務,或使用人力的模型評估任務。

概觀:自動模型評估任務

自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集,也可以使用可用的內建資料集。

概觀:使用人工的模型評估任務

使用人工的模型評估任務可讓您將人類意見帶入模型評估程序中。這些工作者可以是公司的員工,或產業主題專家。

下列主題說明可用的模型評估任務,以及您可以使用的指標種類。他們還描述了可用的內建資料集,以及如何指定自己的資料集。