创建使用人工的模型评估作业 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建使用人工的模型评估作业

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义IAM策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果IAM策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 SageMaker资源的权限

AWS Amazon 托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

要创建使用人类工作人员的模型评估作业,必须将环境设置为具有正确的权限。然后,您可以使用 Studio 中的模型评估作业向导来选择要使用的模型,然后定义要在模型评估作业中使用的参数和工作人员。

工作完成后,您可以查看报告以了解您的员工如何评估您选择的模型。结果还会作为jsonlines输出文件保存在 Amazon S3 中。

在使用人类工作人员的模型评估作业中,您可以从托管在外部的模型 SageMaker 和托管在外部的模型中获取推理数据。 AWS要了解更多信息,请参阅 在使用人工的模型评估作业中使用自己的推理数据

任务完成后,结果将保存在任务创建时指定的 Amazon S3 存储桶中。要了解如何解释结果,请参阅了解模型评估工作的结果

先决条件

要在 Amazon SageMaker Studio 用户界面中运行模型评估,您的 AWS Identity and Access Management (IAM) 角色和所有输入数据集都必须具有正确的权限。如果您没有 SageMaker 域或IAM角色,请按照中的步骤操作Amazon 入门指南 SageMaker

设置您的权限

以下部分向您展示如何创建 Amazon S3 存储桶以及如何指定正确的跨源资源共享 (CORS) 权限。

创建 Amazon S3 存储桶并指定CORS权限
  1. 打开亚马逊 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在导航窗格中,S3进入页面顶部的搜索栏。

  3. 在 “服务” 下选择 S3

  4. 从导航窗格中选择 Buckets

  5. 通用存储桶部分的名称下,选择要用于在控制台中存储模型输入和输出的 S3 存储桶的名称。如果您没有 S3 存储桶,请执行以下操作。

    1. 选择创建存储桶以打开新的创建存储桶页面。

    2. 常规配置部分的AWS 区域下,选择基础模型所在的 AWS 区域。

    3. 在存储桶名称下的输入框中命名您的 S3 存储桶

    4. 接受所有默认选项。

    5. 选择创建存储桶

    6. 通用存储桶部分的名称下,选择您创建的 S3 存储桶的名称。

  6. 选择权限选项卡。

  7. 滚动至窗口底部的跨源资源共享 (CORS) 部分。选择编辑

  8. 以下是您必须添加到 Amazon S3 存储桶的最低要求CORS策略。将以下内容复制并粘贴到输入框中。

    [ { "AllowedHeaders": ["*"], "AllowedMethods": [ "GET", "HEAD", "PUT" ], "AllowedOrigins": [ "*" ], "ExposeHeaders": [ "Access-Control-Allow-Origin" ], "MaxAgeSeconds": 3000 } ]
  9. 选择 Save changes(保存更改)

向您的IAM策略添加权限

您可能需要考虑要赋予IAM角色的权限级别。

如果您想将现有策略附加到您的IAM角色,可以跳过此处设置的说明,继续按照向IAM角色添加权限下的说明进行操作。

以下说明使用最低权限创建针对此服务量身定制的自定义IAM策略。

  1. 打开亚马逊 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在页面顶部的搜索栏中输入IAM

  3. 在 “服务” 下,选择 Identity and Access Managemen IAM t ()

  4. 从导航窗格中选择策略

  5. 选择创建策略。当策略编辑器打开时,选择JSON

  6. 确保在策略编辑器中显示以下权限。您也可以将以下内容复制并粘贴到策略编辑器中。

    { "Version": "2012-10-17", "Statement": [{ "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::{input_bucket}/*", "arn:aws:s3:::{input_bucket}", "arn:aws:s3:::{output_bucket}/*", "arn:aws:s3:::{output_bucket}", "arn:aws:s3:::jumpstart-cache-prod-{region}/*", "arn:aws:s3:::jumpstart-cache-prod-{region}" ] }, { "Effect": "Allow", "Action": [ "sagemaker:CreateEndpoint", "sagemaker:DeleteEndpoint", "sagemaker:CreateEndpointConfig", "sagemaker:DeleteEndpointConfig" ], "Resource": [ "arn:aws:sagemaker:{region}:{account-id}:endpoint/sm-margaret-*", "arn:aws:sagemaker:{region}:{account-id}:endpoint-config/sm-margaret-*" ], "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeProcessingJob", "sagemaker:DescribeEndpoint", "sagemaker:InvokeEndpoint" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeInferenceComponent", "sagemaker:AddTags", "sagemaker:CreateModel", "sagemaker:DeleteModel" ], "Resource": "arn:aws:sagemaker:{region}:{account-id}:model/*", "Condition": { "ForAnyValue:StringEquals": { "aws:TagKeys": "sagemaker-sdk:jumpstart-model-id" } } }, { "Effect": "Allow", "Action": [ "sagemaker:DescribeFlowDefinition", "sagemaker:StartHumanLoop", "sagemaker:DescribeHumanLoop" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "logs:CreateLogStream", "logs:PutLogEvents", "logs:CreateLogGroup", "logs:DescribeLogStreams" ], "Resource": "arn:aws:logs:{region}:{account-id}:log-group:/aws/sagemaker/ProcessingJobs:*" }, { "Effect": "Allow", "Action": [ "cloudwatch:PutMetricData" ], "Resource":"*" }, { "Effect": "Allow", "Action": [ "ecr:GetAuthorizationToken", "ecr:BatchCheckLayerAvailability", "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage" ], "Resource": "*" }, { "Effect": "Allow", "Action": [ "kms:DescribeKey", "kms:GetPublicKey", "kms:Decrypt", "kms:Encrypt" ], "Resource": [ "arn:aws:kms:{region}:{account-id}:key/{kms-key-id}" ] }, { "Effect": "Allow", "Action": [ "iam:PassRole" ], "Resource": "arn:aws:iam::{account-id}:role/{this-role-created-by-customer}", "Condition": { "StringEquals": { "aws:PrincipalAccount": [ "account-id" ] } } }] }
  7. 选择下一步

  8. 在策略详细信息部分的策略名称下输入策略名称。您也可以输入可选描述。将此策略名称分配给角色时,您将搜索该策略名称。

  9. 选择创建策略

为您的IAM角色添加权限
  1. 打开亚马逊 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在页面顶部的搜索栏中输入IAM

  3. 在 “服务” 下,选择 Identity and Access Managemen IAM t ()

  4. 在导航窗格中选择 Roles

  5. 如果您要创建新角色:

    1. 选择 Create role(创建角色)。

    2. “选择可信实体” 步骤中,在 “可信实体类型” 下,选择 “自定义信任策略”。

    3. 自定义信任策略编辑器中,在添加委托人旁边,选择添加

    4. 在 “添加主体” 弹出框中,在 “委托人” 下方,从选项下拉列表中选择AWS 服务

    5. 在 “ARN替换为” {ServiceName}sagemaker

    6. 选择添加主体

    7. 选择下一步

    8. (可选)在权限策略下,选择要添加到角色的策略。

    9. (可选)在 “设置权限边界”-(可选)下,选择您的权限边界设置。

    10. 选择下一步

    11. 在 “名称、查看和创建” 步骤中,在 “角色详细信息” 下填写您的角色名称描述

    12. (可选)在 “添加标签-可选” 下,您可以通过选择添加新标签并输入密钥值-可选对来添加标签。

    13. 检视您的设置。

    14. 选择 Create role(创建角色)。

  6. 如果您要将策略添加到现有角色:

    1. 在 “角色名称” 下选择角色的名称。主窗口将更改为显示有关您的角色的信息。

    2. 在 “权限策略” 部分中,选择 “添加权限” 旁边的向下箭头。

    3. 从显示的选项中,选择附加策略

    4. 从显示的策略列表中,搜索并选择您在 “向策略添加权限” 下创建的IAM策略,然后选中策略名称旁边的复选框。如果您没有创建自定义IAM策略,请搜索并选中 AWS 提供的AmazonSageMakerFullAccess策略和AmazonS3FullAccess策略旁边的复选框。您可能需要考虑要赋予IAM角色的权限级别。自定义IAM策略的说明不那么宽松,而后者则更宽松。有关该AmazonSageMakerFullAccess策略的更多信息,请参阅AmazonSageMakerFullAccess

    5. 选择添加权限。页面顶部的横幅应说明策略已成功附加到角色。 完成后。

向您的IAM角色添加信任策略

以下信任策略允许管理员代 SageMaker入该角色。您需要将策略添加到您的IAM角色中。使用以下步骤来执行此操作。

  1. 打开亚马逊 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在页面顶部的搜索栏中输入IAM

  3. 在 “服务” 下,选择 Identity and Access Managemen IAM t ()

  4. 在导航窗格中选择 Roles

  5. 在 “角色名称” 下选择角色的名称。主窗口将更改为显示有关您的角色的信息。

  6. 选择 “信任关系” 选项卡。

  7. 选择编辑信任策略

  8. 确保以下策略显示在 “编辑信任策略” 下。您也可以将以下内容复制并粘贴到编辑器中。

    { "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Principal": { "Service": [ "sagemaker.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }
  9. 选择更新策略。页面顶部的横幅应说明信任政策已更新。 完成后。

您可以使用中提供的基于文本的模型创建人工评估作业, JumpStart 也可以使用之前部署到端点的 JumpStart 模型。

要启动 JumpStart
  1. 打开亚马逊 SageMaker 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在页面顶部的搜索栏中输入SageMaker

  3. 在 “服务” 下,选择 “亚马逊” SageMaker。

  4. 从导航窗格中选择 Studio

  5. 展开 “选择域名” 下的向下箭头后,从 “入门” 部分选择您的域名

  6. 展开 “选择用户个人资料” 下的向下箭头后,从 “入门” 部分中选择您的用户个人资料

  7. 选择 Open Studio 以打开 Studio 的登录页面。

  8. 从导航窗格中选择 “作业”。

设置评估作业
  1. 在模型评估主页上,选择评估模型

  2. 指定任务详细信息。

    1. 输入模型评估的评估名称。此名称可帮助您在模型评估任务提交后对其进行识别。

    2. 输入描述以为名称添加更多上下文。

    3. 选择下一步

  3. 设置评估

    1. “选择评估类型” 下,选择 “类” 旁边的单选按钮。

    2. 在选择要评估的模型下,选择向评估添加模型。每次评估最多可以评估两个模型。

      1. 要使用预训练 JumpStart 模型,请选择预训练JumpStart 的基础模型。如果要使用之前部署到终端节点的 JumpStart模型,请选择带有 JumpStart基础模型的端点。

      2. 如果模型需要法律协议,请选中该复选框以确认您同意。

      3. 如果要添加其他模型,请重复上一步操作。

    3. 要更改模型在推理期间的行为方式,请选择 “设置参数”。

      Set parameters 包含一系列推理参数,这些参数会影响模型输出的随机程度、模型输出的长度以及模型接下来要选择的单词。

    4. 接下来,选择任务类型。您可以选择以下任一选项:

      • 文本摘要

      • 问题解答(问答)

      • 文本分类

      • 开放式一代

      • 自定义

    5. 评估指标部分,选择评估维度,然后在描述下的文本框中输入有关该维度的更多上下文。您可以从以下尺寸中进行选择:

      • 流畅度-衡量生成的文本的语言质量。

      • 连贯性-衡量生成的文本的组织和结构。

      • 毒性-衡量生成的文本的危害性。

      • 精度-表示生成的文本的准确性。

      • 一个自定义评估维度,您可以为工作团队定义名称和描述。

        要添加自定义评估维度,请执行以下操作:

        • 选择添加评估维度

        • 在包含提供评估维度的文本框中,输入您的自定义维度的名称。

        • 在包含为此评估维度提供描述的文本框中,输入描述,以便您的工作团队了解如何评估您的自定义维度。

      在每个指标下方都有报告指标,您可以从 “选择指标类型” 向下箭头中进行选择。如果您有两个模型需要评估,则可以选择比较或单独的报告指标。如果您要评估一个模型,则只能选择单个报告指标。您可以为上述每个指标选择以下报告指标类型。

      • (比较)李克特量表——比较 — 人类评估人员将根据你的指示,在5分李克特量表上指出他们在两个答案之间的偏好。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的偏好强度评级。在说明中定义 5 分制的要点,以便您的评估人员知道如何根据您的期望对答案进行评分。在 Amazon S3 中保存的JSON输出中,此选项表示ComparisonLikertScale为密钥值对"evaluationResults":"ComparisonLikertScale"

      • (比较)选择按钮-允许人工评估者指明他们首选的响应而不是另一种响应。评估者使用单选按钮根据您的说明在两个答案之间表示他们的偏好。最终报告中的结果将以百分比的形式,显示工作人员为每种模型首选的响应。在说明中清楚地说明您的评估方法。在 Amazon S3 中保存的JSON输出中,此选项表示ComparisonChoice为密钥值对"evaluationResults":"ComparisonChoice"

      • (比较)顺序排名 — 允许人工评估人员根据您的指示按顺序对提示的首选响应进行排名,从开始1顺序排名。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的排名。在说明中定义等级的1含义。在 Amazon S3 中保存的JSON输出中,此选项表示ComparisonRank为密钥值对"evaluationResults":"ComparisonRank"

      • (个人)竖起/向下 — 允许人工评估人员根据您的指示将模型的每个响应评为可接受或不可接受。最终报告中的结果将以百分比的形式,显示每个模型从评估人员处获得好评总数的百分比。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含两个模型的评估中使用它,则每个模型响应都会向您的工作团队竖起大拇指或向下竖起大拇指,最终报告将单独显示每个模型的汇总结果。在说明中定义可以接受的竖起大拇指或竖起大拇指的评分。在 Amazon S3 中保存的JSON输出中,此选项表示ThumbsUpDown为密钥值对"evaluationResults":"ThumbsUpDown"

      • (个人)李克特量表——个人 — 允许人工评估人员根据你在 5 分李克特量表上的指示来表明他们对模型响应的认可程度。最终报告中的结果将显示为评估者对整个数据集的 5 分评分的直方图。您可以使用此量表进行包含一个或多个模型的评估。如果您在包含多个模型的评估中选择此评分方法,则每个模型响应将向您的工作团队呈现一个5分的李克特量表,最终报告将单独显示每个模型的汇总结果。在说明中以 5 分制定义要点,以便评估人员知道如何根据您的期望对回复进行评分。在 Amazon S3 中保存的JSON输出中,此选项表示IndividualLikertScale为密钥值对"evaluationResults":"IndividualLikertScale"

    6. 选择提示数据集。此数据集是必需的,您的人工团队将使用该数据集来评估模型的响应。在输入数据集文件的 S3 下方的文本框中将 S3 提供URI给包含您的提示数据集的 Amazon S3 URI 存储桶。您的数据集必须jsonlines采用格式并包含以下密钥,以确定用户界面将使用数据集的哪些部分来评估您的模型:

      • prompt— 您希望模型生成响应的请求。

      • (可选)category—-提示的类别标签。该category密钥用于对提示进行分类,以便您稍后可以按类别筛选评估结果,以便更深入地了解评估结果。它不参与评估本身,工作人员也不会在评估 UI 上看到它。

      • (可选)referenceResponse— 人工评估人员的参考答案。您的工作人员不会对参考答案进行评分,但可以根据您的指示来了解哪些回答是可以接受或不可接受的。

      • (可选)responses-用于指定模型外部 SageMaker 或外部的 AWS推断。

        这个对象需要另外两个键值对"modelIdentifier,一个是标识模型的字符串"text",也是模型的推断。

        如果您在自定义提示数据集的任何输入中指定"responses"密钥,则必须在所有输入中指定该密钥。

      • 以下json代码示例显示了自定义提示数据集中接受的键值对。如果提供了响应密钥,则必须选中 “自带推理” 复选框。如果选中,则必须始终在每个提示中指定responses密钥。以下示例可用于问答场景。

        { "prompt": { "text": "Aurillac is the capital of" }, "category": "Capitals", "referenceResponse": { "text": "Cantal" }, "responses": [ // All responses must come from a single model. If specified it must be present in all JSON objects. modelIdentifier and text are then also required. { "modelIdentifier": "meta-textgeneration-llama-codellama-7b", "text": "The capital of Aurillac is Cantal." } ] }
    7. 在 “选择 S3 位置” 下的文本框中输入要保存输出评估结果的 S3 存储桶位置,以保存评估结果。写入此 S3 位置的输出文件将JSON采用格式,以扩展名结尾.json

    8. 注意

      如果要在模型评估作业中包含自带推理数据,则只能使用单个模型。

      (可选)选中 “自带推理” 下的复选框以指示您的提示数据集包含responses密钥。如果您将responses密钥指定为任何提示的一部分,则所有提示中都必须包含该密钥。

    9. 在 “处理器配置” 部分使用以下参数配置处理器:

      • 使用实例计数来指定用于运行模型的计算实例数量。如果您使用多个1实例,则您的模型将在并行实例中运行。

      • 使用实例类型来选择要用于运行模型的计算实例类型。 AWS 具有通用计算实例和针对计算和内存进行了优化的实例。有关实例类型的更多信息,请参阅可用于 Studio Classic 的实例类型

      • 如果您 SageMaker 想使用自己的 AWS Key Management Service (AWS KMS) 加密密钥而不是默认的 AWS 托管服务密钥,请在音量KMS密钥下切换到选择 On,然后输入 AWS KMS 密钥。 SageMaker 将使用您的 AWS KMS 密钥对存储卷上的数据进行加密。有关密钥的更多信息,请参阅AWS Key Management Service

      • 如果您 SageMaker 想使用自己的 AWS Key Management Service (AWS KMS) 加密密钥而不是默认的 AWS 托管服务密钥,请在输出KMS密钥下切换到选择开并输入 AWS KMS 密钥。 SageMaker 将使用您的 AWS KMS 密钥对处理任务输出进行加密。

      • 使用IAM角色指定默认处理者的访问权限和权限。在 “IAM运行人工评估” 部分中输入您在 “设置您的IAM角色” 部分中设置的角色。

    10. 指定模型和标准后,选择下一步

您的工作团队由评估您的模型的人员组成。工作团队创建后,它会无限期地持续存在,并且您无法更改其属性。以下内容显示了如何开始使用您的工作团队。

组建你的工作团队
  1. 在选择团队输入文本框中选择现有团队或创建新团队

  2. 在组织名称中指定您的组织名称。只有当您在账户中创建第一个工作团队时,才会显示此字段。

  3. 指定联系人电子邮件。您的工作人员将使用此电子邮件与您沟通您将向他们提供的评估任务。只有当您在账户中创建第一个工作团队时,才会显示此字段。

  4. 指定团队名称。您以后不能更改此名称。

  5. 为每位人类工作人员指定电子邮件地址列表,以评估您的大型语言模型(LLM)。当您为团队指定电子邮件地址时,只有当他们新加入工作团队时,他们才会收到有关新工作的通知。如果您在后续工作中使用同一个团队,则必须手动通知他们。

  6. 然后,指定每个提示的工作人员数量

为您的工作团队提供指导
  1. 向您的员工提供详细说明,以便他们可以根据您的指标和标准评估您的模型。主窗口中的模板显示了您可以提供的示例说明。有关如何发出指示的更多信息,请参阅创建优秀的工作人员指令

  2. 要最大限度地减少人体评估中的偏差,请选中 “随机化响应位置” 旁边的复选框。

  3. 选择下一步

您可以查看您为人工工作所做的选择摘要。如果您必须更换工作,请选择 “上一步” 以返回到之前的选择。

提交您的评估工作申请并查看工作进度
  1. 要提交评估任务申请,请选择创建资源

  2. 要查看所有作业的状态,请在导航窗格中选择作业。然后,选择模型评估。评估状态显示为 “已完成”、“失败” 或 “进行中”。

    还会显示以下内容:

    • 用于在 SageMaker 和 Amazon Bedrock 中进行模型评估的示例笔记本电脑。

    • 指向其他信息的链接,包括有关模型评估过程的文档、视频、新闻和博客。

    • 您的 P URL rivate Worker 门户网站也可用。

  3. 在 “名称” 下选择您的模型评估以查看您的评估摘要。

    • 摘要提供了有关作业状态、您在哪个模型上运行了哪种评估任务以及何时运行的信息。摘要之后,将按指标对人类评估分数进行排序和汇总。

查看使用人工工作的模型评估作业的成绩单
  1. 要查看您的作业报告,请在导航窗格中选择作业

  2. 然后,选择模型评估。在模型评估主页上,使用表格查找您的模型评估工作。任务状态更改为 “已完成” 后,您可以查看您的成绩单。

  3. 在成绩单上选择模型评估任务的名称。

在创建使用人工工作人员的模型评估作业时,您可以选择带上自己的推理数据,并让您的人工将该推理数据与另一个 JumpStart 模型或已部署到终端节点的 JumpStart 模型生成的数据进行比较。

本主题介绍推理数据所需的格式,以及如何将该数据添加到模型评估任务的简化程序。

选择提示数据集。此数据集是必需的,您的人工团队将使用该数据集来评估模型的响应。在选择 S3 位置下的文本框中将 S3 提供URI给包含您的提示数据集的 Amazon S3 存储桶,以保存您的评估结果。您的数据集必须是.jsonl格式化的。每条记录都必须是有效的JSON对象,并包含以下必需的密钥:

  • prompt— 包含要传递到模型中的文本的JSON对象。

  • (可选)category—-提示的类别标签。该category密钥用于对提示进行分类,以便您稍后可以按类别筛选评估结果,以便更深入地了解评估结果。它不参与评估本身,工作人员也不会在评估 UI 上看到它。

  • (可选)referenceResponse— 一个包含人类评估者的参考答案的JSON对象。您的工作人员不会对参考答案进行评分,但可以根据您的指示来了解哪些回答是可以接受或不可接受的。

  • responses— 用于指定来自模型外部 SageMaker 或外部模型的个别推论。 AWS

    此对象需要额外的键值对"modelIdentifier,即标识模型的字符串"text",也是模型的推断。

    如果您在自定义提示数据集的任何输入中指定"responses"密钥,则必须在所有输入中指定该密钥。

以下json代码示例显示了包含您自己的推理数据的自定义提示数据集中接受的键值对。

{ "prompt": { "text": "Who invented the airplane?" }, "category": "Airplanes", "referenceResponse": { "text": "Orville and Wilbur Wright" }, "responses": // All inference must come from a single model [{ "modelIdentifier": "meta-textgeneration-llama-codellama-7b" , "text": "The Wright brothers, Orville and Wilbur Wright are widely credited with inventing and manufacturing the world's first successful airplane." }] }

要开始使用 Studio,请在主导航栏的 “作业” 下选择 “模型评估”。

将自己的推理数据添加到人体模型评估作业中。
  1. 步骤 1:指定作业详细信息中,添加模型评估任务的名称和可选描述。

  2. 步骤 2:设置评估中,选择人类

  3. 接下来,在 “选择要评估的模型” 下,您可以选择要使用的模型。您可以使用已经部署的 JumpStart 模型,也可以选择预先训练的 Jumpstart 基础模型。

  4. 然后,选择任务类型

  5. 接下来,您可以添加评估指标

  6. 接下来,在 P romp t dataset 下,选中自带推断下的复选框,以表明您的提示中包含响应密钥。

  7. 然后继续设置您的模型评估作业。

要详细了解如何保存使用人工操作的模型评估作业的响应,请参阅 了解人工评估工作的结果