本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Studio 中評估文字產生基礎模型
注意
Foundation Model Evaluations (FMEval) 為 Amazon SageMaker Clarify 的預覽版本,可能會有所變更。
重要
若要使用 SageMaker Clarify Foundation Model Evaluations,您必須升級至新的 Studio 體驗。截至 2023 年 11 月 30 日,先前的 Amazon SageMaker Studio 體驗現在已命名為 Amazon SageMaker Studio Classic。基礎評估功能只能用於更新的 體驗。如需如何更新 Studio 的詳細資訊,請參閱從 Amazon SageMaker Studio Classic 遷移。如需有關使用 Studio Classic 應用程式的資訊,請參閱 Amazon SageMaker Studio Classic。
Amazon SageMaker JumpStart 與 Studio 中的 SageMaker Clarify Foundation Model Evaluations (FMEval) 整合。如果 JumpStart 模型有可用的內建評估功能,您可以在 JumpStart Studio UI 中的模型詳細資訊頁面右上角選擇評估。如需導覽 JumpStart Studio UI 的詳細資訊,請參閱 在 Studio 中開啟和使用 JumpStart ,
使用 Amazon SageMaker JumpStart 評估 FMEval 的文字型基礎模型。您可以使用這些模型評估來比較一個模型、兩個模型之間或相同模型不同版本的模型品質和責任指標,以協助您量化模型風險。FMEval 可以評估執行下列任務的文字型模型:
-
開放式產生 – 對沒有預先定義結構的文字產生自然人回應。
-
文字摘要 – 產生簡潔和精簡的摘要,同時保留較大文字中包含的意義和金鑰資訊。
-
問題回答 – 問題自然語言答案的產生。
-
分類 – 類別的指派,例如相對於根據其內容
positive
negative
的文字段落。
您可以使用 FMEval 根據特定基準自動評估模型回應。您也可以使用自己的提示資料集,根據自己的條件評估模型回應。FMEval 提供使用者介面 (UI),引導您完成評估任務的設定和組態。您也可以在自己的程式碼中使用 FMEval 程式庫。
每個評估都需要兩個執行個體的配額:
-
主機執行個體 – 託管和部署 LLM 的執行個體。
-
評估執行個體 – 用來提示和執行託管執行個體上 LLM 評估的執行個體。
如果您的 LLM 已部署,請提供端點,SageMaker AI 將使用託管執行個體來託管和部署 LLM。
如果您正在評估尚未部署到帳戶的 JumpStart 模型,FMEval 會在您的帳戶中為您建立臨時託管執行個體,並只在評估期間保持部署狀態。FMEval 會使用 JumpStart 建議的預設執行個體,將所選 LLM 做為您的託管執行個體。您必須為此建議執行個體有足夠的配額。
每個評估也會使用 評估執行個體來提供提示,並從 LLM 對回應進行評分。您還必須有足夠的配額和記憶體,才能執行評估演算法。評估執行個體的配額和記憶體需求通常小於託管執行個體所需的配額和記憶體需求。建議您選取ml.m5.2xlarge
執行個體。如需配額和記憶體的詳細資訊,請參閱在 Amazon SageMaker AI 中建立模型評估任務時解決錯誤。
自動評估可用於在下列維度對 LLMs評分:
-
準確性 – 用於文字摘要、問題回答和文字分類
-
語意穩健性 – 用於開放式產生、文字摘要和文字分類任務
-
事實知識 – 適用於開放式世代
-
提示刻板印象 – 適用於開放式世代
-
毒性 – 用於開放式產生、文字摘要和問題回答
您也可以使用人工評估來手動評估模型回應。FMEval UI 會引導您完成工作流程,以選擇一或多個模型、佈建資源,以及撰寫說明並聯絡人力資源。人工評估完成後,結果會顯示在 FMEval 中。
您可以透過 Studio 中的 JumpStart 登陸頁面存取模型評估,方法是選取要評估的模型,然後選擇評估。請注意,並非所有 JumpStart 模型都有可用的評估功能。如需如何設定、佈建和執行 FMEval 的詳細資訊,請參閱什麼是基礎模型評估?