本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
开始进行模型评估
大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果要评估LLM,请 SageMaker 提供以下三个选项供您选择:
-
使用 Studio 为员工设置手动评估。
-
使用 Studio 使用算法评估您的模型。
-
使用
fmeval
库通过自定义的工作流程自动评估您的模型。
您可以使用算法自动评估基础模型,也可以要求人工团队评估模型的响应。
人类工作团队可以同时评估和比较两个模型,这些指标表明对一种响应的偏好,而不是另一种响应。人工评估的工作流程、指标和说明可以根据特定的用例进行定制。人类还可以提供比算法评估更精细的评估。
您还可以使用算法来评估您的LLM基准,以便在 Studio 中对模型响应进行快速评分。Studio 提供了指导性工作流程,可使用预定义的指标来评估 JumpStart 模型的响应。这些指标特定于生成式 AI 任务。此指导流程使用内置或自定义数据集来评估您的LLM.
或者,您可以使用该fmeval
库使用自动评估来创建比 Studio 中提供的更加自定义的工作流程。使用 Python 代码和fmeval
库,你可以评估任何基于文本的模型LLM,包括在外部创建的 JumpStart模型。
以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题显示了如何配置和运行初始评估和自定义评估。
主题