开始模型评测

聚焦模式

开始模型评测 - 亚马逊 SageMaker AI

大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果你想评估法学硕士， SageMaker AI 提供了以下三个选项供你选择：

您可以使用算法自动评估基础模型，也可以请人工团队评估模型的响应。

人工工作团队可以同时评估和比较多达两个模型，使用的指标可显示对一种响应的偏好程度。人工评估的工作流程、指标和说明可根据特定的使用场景进行定制。与算法评估相比，人工还能提供更精细的评估。

您还可以使用基准算法来评估您的 LLM，以便在 Studio 中快速为您的模型响应打分。Studio 提供了指导性工作流程，可使用预定义的指标来评估 JumpStart 模型的响应。这些指标是生成式人工智能任务所特有的。该指导流程使用内置或自定义数据集来评估您的 LLM。

此外，您还可以使用 fmeval 库，通过自动评估创建比 Studio 更个性化的工作流程。使用 Python 代码和fmeval库，你可以评估任何基于文本的 LLM，包括在外部创建的模型。 JumpStart

以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题说明了如何配置和运行起始评估和自定义评估。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型评估

提示数据集和评估维度

选择您的 Cookie 首选项