选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

开始模型评测

聚焦模式
开始模型评测 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

大型语言模型 (LLM) 是一种可以分析和生成自然语言文本的机器学习模型。如果你想评估法学硕士, SageMaker AI 提供了以下三个选项供你选择:

  • 使用 Studio 为人工劳动力设置人工评估。

  • 使用 Studio 算法评估您的模型。

  • 使用 fmeval 库,通过定制的工作流程自动评估模型。

您可以使用算法自动评估基础模型,也可以请人工团队评估模型的响应。

人工工作团队可以同时评估和比较多达两个模型,使用的指标可显示对一种响应的偏好程度。人工评估的工作流程、指标和说明可根据特定的使用场景进行定制。与算法评估相比,人工还能提供更精细的评估。

您还可以使用基准算法来评估您的 LLM,以便在 Studio 中快速为您的模型响应打分。Studio 提供了指导性工作流程,可使用预定义的指标来评估 JumpStart 模型的响应。这些指标是生成式人工智能任务所特有的。该指导流程使用内置或自定义数据集来评估您的 LLM。

此外,您还可以使用 fmeval 库,通过自动评估创建比 Studio 更个性化的工作流程。使用 Python 代码和fmeval库,你可以评估任何基于文本的 LLM,包括在外部创建的模型。 JumpStart

以下主题概述了基础模型评估、自动和人工基础模型评估 (FMEval) 工作流程、如何运行它们以及如何查看结果的分析报告。自动评估主题说明了如何配置和运行起始评估和自定义评估。

主题

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。