了解使用 SageMaker Clarify 評估大型語言模型的選項

重要

若要使用 SageMaker Clarify Foundation Model Evaluations，您必須升級至新的 Studio 體驗。截至 2023 年 11 月 30 日，先前的 Amazon SageMaker Studio 體驗現在已命名為 Amazon SageMaker Studio Classic。基礎評估功能只能用於更新的體驗。如需有關如何更新 Studio 的資訊，請參閱從 Amazon SageMaker Studio Classic 遷移。如需有關使用 Studio Classic 應用程式的資訊，請參閱 Amazon SageMaker Studio Classic。

使用 Amazon SageMaker Clarify，您可以透過建立模型評估任務來評估大型語言模型（LLMs）。模型評估任務可讓您評估和比較來自的文字基礎模型的模型品質和責任指標 JumpStart。模型評估任務也支援使用已部署到端點的 JumpStart 模型。

您可以使用三種不同的方法建立模型評估任務。

在 Studio 中建立自動化模型評估任務：自動模型評估任務可讓您快速評估模型執行任務的能力。您可以提供針對特定使用案例量身打造的自訂提示資料集，也可以使用可用的內建資料集。
在 Studio 中建立使用人工的模型評估任務：使用人工的模型評估任務可讓您將人工輸入帶入模型評估程序。這些工作者可以是公司的員工，或產業主題專家。
使用 fmeval 程式庫建立自動化模型評估任務 – 使用建立任務fmeval可讓您對模型評估任務進行最精細的控制。它也支援使用其他服務的LLMs外部 AWS 或非JumpStart 基礎模型。

模型評估任務支援文字產生、文字分類、問題和答案以及文字摘要LLMs等常見使用案例。

開放式世代 – 對沒有預先定義結構的文字產生自然人回應。
文字摘要 – 產生精簡摘要，同時保留較大文字中包含的意義和金鑰資訊。
問題回答 – 產生相關且準確的提示回應。
分類 – 根據文字內容指派類別，例如標籤或分數。

下列主題說明可用的模型評估任務，以及您可以使用的指標種類。他們還描述了可用的內建資料集，以及如何指定自己的資料集。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

評估、解釋和偵測模型中的偏差

模型評估