本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果你想评估法学硕士, SageMaker AI 提供了以下三个选项供你选择:
-
使用 Studio 为人工劳动力设置人工评估。
-
使用 Studio 算法评估您的模型。
-
使用
fmeval
库,通过定制的工作流程自动评估模型。
您可以使用算法自动评估基础模型,也可以请人工团队评估模型的响应。
人工工作团队可以同时评估和比较多达两个模型,使用的指标可显示对一种响应的偏好程度。人工评估的工作流程、指标和说明可根据特定的使用场景进行定制。与算法评估相比,人工还能提供更精细的评估。
您还可以使用基准算法来评估您的 LLM,以便在 Studio 中快速为您的模型响应打分。Studio 提供了指导性工作流程,可使用预定义的指标来评估 JumpStart 模型的响应。这些指标是生成式人工智能任务所特有的。该指导流程使用内置或自定义数据集来评估您的 LLM。
此外,您还可以使用 fmeval
库,通过自动评估创建比 Studio 更个性化的工作流程。使用 Python 代码和fmeval
库,你可以评估任何基于文本的 LLM,包括在外部创建的模型。 JumpStart
以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题说明了如何配置和运行起始评估和自定义评估。
主题