模型評估入門

大型語言模型（LLM）是一種機器學習模型，可分析和產生自然語言文字。如果您想要評估 LLM， SageMaker 請提供以下三個選項供您選擇：

您可以使用演算法自動評估基礎模型，或要求人工工作團隊評估模型的回應。

人力工作團隊可以使用指標，指示一個回應的偏好，同時評估和比較最多兩個模型。人工評估的工作流程、指標和指示可以量身打造，以符合特定使用案例。人類也可以提供比演算法評估更精細的評估。

您也可以使用演算法，LLM使用基準來評估您的，以在 Studio 中快速評定模型回應。Studio 提供引導式工作流程，使用預先定義的指標來評估 JumpStart 模型的回應。這些指標是生成性 AI 任務特有的。此引導式流程使用內建或自訂資料集來評估您的 LLM。

或者，您可以使用程式fmeval庫，使用自動評估建立比 Studio 中可用的評估更自訂的工作流程。使用 Python 程式碼和fmeval程式庫，您可以評估任何文字型 LLM，包括在之外建立的模型 JumpStart。

下列主題提供基礎模型評估的概觀、自動和人工基礎模型評估（FMEval）工作流程的摘要、如何執行，以及如何檢視結果的分析報告。自動評估主題說明如何設定和執行啟動和自訂評估。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

模型評估

提示資料集和評估維度