模型評估入門 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

模型評估入門

大型語言模型 (LLM) 是一種機器學習模型,可分析和產生自然語言文字。如果您想要評估 LLM, SageMaker 請提供以下三個選項供您選擇:

  • 使用 Studio 為人工人力資源設定手動評估。

  • 使用 Studio 使用演算法評估模型。

  • 使用 fmeval程式庫使用自訂工作流程自動評估模型。

您可以使用演算法自動評估基礎模型,或要求人工工作團隊評估模型的回應。

人力工作團隊可以使用指標,指示一個回應的偏好,同時評估和比較最多兩個模型。人工評估的工作流程、指標和指示可以量身打造,以符合特定使用案例。人類也可以提供比演算法評估更精細的評估。

您也可以使用演算法,LLM使用基準來評估您的 ,以在 Studio 中快速評定模型回應。Studio 提供引導式工作流程,使用預先定義的指標來評估 JumpStart 模型的回應。這些指標是生成性 AI 任務特有的。此引導式流程使用內建或自訂資料集來評估您的 LLM。

或者,您可以使用程式fmeval庫,使用自動評估建立比 Studio 中可用的評估更自訂的工作流程。使用 Python 程式碼和fmeval程式庫,您可以評估任何文字型 LLM,包括在 之外建立的模型 JumpStart。

下列主題提供基礎模型評估的概觀、自動和人工基礎模型評估 (FMEval) 工作流程的摘要、如何執行,以及如何檢視結果的分析報告。自動評估主題說明如何設定和執行啟動和自訂評估。

主題