创建自动模型评估作业 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建自动模型评估作业

自动模型评估允许您使用推荐的指标来评估来自单个模型的响应。也可以使用内置的提示数据集或自己的自定义提示数据集。您每个 AWS 区域的账户中最多可以有 10 个正在进行的自动模型评估作业。

设置自动模型评估作业时,最适合所选任务类型的可用指标和内置数据集将自动添加到该作业中。您可以添加或删除任何预先选择的指标或数据集。您也可以提供自己的自定义提示数据集。

先决条件

要使用 Amazon Bedrock 控制台创建您的第一个模型评估任务,您必须执行以下操作。

注意

使用 Amazon Bedrock 控制台创建模型评估任务时,您必须对您指定的 Amazon S3 存储桶设置正确的CORS权限。

  1. 有权在 Amazon Bedrock 中访问模型。

  2. 具备 Amazon Bedrock 服务角色。如果您尚未创建服务角色,则可以在设置模型评估任务时在 Amazon Bedrock 控制台中创建。如果要创建自定义策略,则附加的策略必须授予对以下资源的访问权限:模型评估任务中使用的任何 S3 存储桶以及任务中指定的模型ARN的存储桶。服务角色还必须将 Amazon Bedrock 定义为该角色信任策略中的服务主体。要了解更多信息,请参阅 所需的权限

  3. 访问 Amazon Bedrock 控制台的用户、群组或角色必须具备访问必要 Amazon S3 存储桶所需的权限。要了解更多信息,请参阅 所需的权限

  4. 输出 Amazon S3 存储桶和任何自定义提示数据集存储桶都必须添加所需的CORS权限。要了解有关所需CORS权限的更多信息,请参阅S3 存储桶所需的跨源资源共享 (CORS) 权限

教程:创建自动模型评估作业

以下过程是一个教程。本教程介绍如何创建使用 Amazon Titan Text G1-Lite 模型的自动模型评估任务以及创建IAM服务角色。

使用 Amazon Bedrock 控制台查看模型评估作业结果

模型评估任务完成后,结果将存储在您指定的 Amazon S3Bucket 中。如果您以任何方式修改结果所在的位置,模型评估报告卡将不再显示在控制台中。

(教程)使用 Amazon Titan Text G1-Lite 创建自动模型评估
  1. 打开 Amazon Bedrock 控制台:https://console.aws.amazon.com/bedrock/.

  2. 在导航窗格中,选择模型评估

  3. 建立评估卡的自动下,选择创建自动评估

  4. 创建自动评估页面上,提供以下信息:

    1. 评估名称 — 为模型评估作业指定一个可描述该作业的名称。此名称显示在模型评估任务表中。名称在您的 AWS 账户 中必须是唯一的。 AWS 区域

    2. 描述(可选)— 提供可选描述。

    3. 型号选择器 — 选择型号 Amazon Titan Text G1 — Lite。

      要详细了解可用模型并在 Amazon Bedrock 中访问它们,请参阅管理对 Amazon Bedrock 基础模型的访问权限

    4. (可选)要更改推理配置,请选择更新

      更改推理配置会更改所选模型生成的响应。要了解有关可用推理参数的更多信息,请参阅 根基模型的推理参数

    5. 任务类型-选择常规文本生成

    6. 在 “指标和数据集” 卡片中 — 您可以看到可用指标列表和内置提示数据集。数据集会根据您选择的任务而变化。在本教程中,保留默认选项处于选中状态。

    7. 评估结果-指定要保存模型评估任务结果的目录的 S3 URI。选择 “浏览 S3”,在 Amazon S3 中搜索地点。

    8. Amazon Bedrock IAM角色 — 选择单选按钮创建新角色

    9. (可选)在 “服务角色名称” 下,更改将代表您创建的角色的后缀。以这种方式创建的角色将始终以 Amazon-Bedrock--Role-IAM 开头。

    10. 自动模型评估任务始终需要输出存储桶,并且在IAM服务角色中必须是特定的。如果您已经在评估结果中指定了存储桶,则会预先填充此字段。

    11. 接下来,选择创建角色

  5. 要启动模型评估作业,请选择创建

作业成功启动后,状态将变为进行中。作业完成后,状态将变为已完成

要停止当前正在进行的模型评估作业,请选择停止评估模型评估任务的状态将从 “进行中” 更改为 “正在停止”。任务状态更改为 “已停止” 后。

要了解如何评估、查看和下载模型评估作业的结果,请参阅 模型评估作业结果