解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

解决在 Amazon A SageMaker I 中创建模型评估任务时出现的错误

重要

要使用 Clari SageMaker fy 基础模型评估 (FMEval),您必须升级到全新的 Studio 体验。

截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。 FMEval 在 Amazon SageMaker Studio 经典版中不可用。

有关如何升级到全新 Studio 体验的信息,请参阅 从亚马逊 SageMaker Studio 经典版迁移。有关使用 Studio Classic 应用程序的信息,请参阅 亚马逊 SageMaker Studio 经典版

如果在创建模型评测作业时遇到错误,请使用以下列表排除评估故障。如果您需要进一步的帮助,请联系我们支持Amazon A SageMaker I AWS 开发者论坛

从 Amazon S3 存储桶上传数据时出错

创建基础模型评测时,必须为要存储模型输入和输出的 S3 存储桶设置正确的权限。如果跨源资源共享 (CORS) 权限设置不正确, SageMaker AI 会生成以下错误:

错误:无法将对象放入 s3:将对象上传到 s3Error 时出错:尝试获取资源 NetworkError 时无法将对象放入 S3: 中。

要设置正确的存储桶权限,请遵循 在 Studio 中创建自动模型评测任务设置环境下的说明。

处理作业未能完成

处理作业无法完成的最常见原因包括以下几点:

请参阅以下章节,以帮助您缓解每个问题。

配额不足

当您对未部署 JumpStart的模型运行基础模型评估时, SageMaker Clarify 会将您的大型语言模型 (LLM) 部署到您账户中的 A SageMaker I 端点。如果您的账户没有足够的配额来运行所选 JumpStart 模型,则任务将失败,并显示为ClientError。要增加配额,请按照以下步骤操作:

申请增加 AWS 服务配额
  1. 从屏幕错误信息中读取实例名称、当前配额和所需配额。例如,在以下错误中

    • 实例名称为 ml.g5.12xlarge

    • current utilization 后面数字的当前配额为 0 instances

    • request delta 后面的数字所需的额外配额为 1 instances

    样本误差如下:

    ClientError: An error occurred (ResourceLimitExceeded) when calling the CreateEndpoint operation: The account-level service limit 'ml.g5.12xlarge for endpoint usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please use AWS Service Quotas to request an increase for this quota. If AWS Service Quotas is not available, contact AWS support to request an increase for this quota

  2. 登录 AWS Management Console 并打开 S ervice Quotas 控制台

  3. 在导航窗格的管理配额下,输入 Amazon SageMaker AI

  4. 选择查看配额

  5. 服务配额下的搜索栏中,输入步骤 1 中的实例名称。例如,利用步骤 1 中的错误信息,输入 ml.g5.12xlarge

  6. 选择出现在实例名称旁边、以用于端点使用结尾的 配额名称。例如,使用步骤 1 中的错误信息,为端点使用选择 ml.g5.12xlarge

  7. 选择申请增加账户级别

  8. 增加配额值下,根据步骤 1 的错误信息输入所需的配额。输入 current utilizationrequest delta总和。在前面的错误示例中,current utilization0 Instancesrequest delta1 Instances。在此示例中,请求使用 1 配额来提供所需的配额。

  9. 选择请求

  10. 在导航窗格中选择配额申请历史记录

  11. 状态待定变为已批准,请重新运行作业。您可能需要刷新浏览器才能看到变化。

有关申请增加配额的更多信息,请参阅申请增加配额

内存不足

如果您在内存不足以运行评估算法的 Amazon EC2 实例上启动基础模型评估,则任务将失败,并显示以下错误:

The actor is dead because its worker process has died. Worker exit type: SYSTEM_ERROR Worker exit detail: Worker unexpectedly exits with a connection error code 2. End of file. There are some potential root causes. (1) The process is killed by SIGKILL by OOM killer due to high memory usage. (2) ray stop --force is called. (3) The worker is crashed unexpectedly due to SIGSEGV or other unexpected errors. The actor never ran - it was cancelled before it started running.

要增加评估作业的可用内存,请将实例更改为内存更大的实例。如果使用的是用户界面,则可以在步骤 2 中的处理器配置下选择实例类型。如果您在 SageMaker AI 控制台中运行作业,请使用内存容量增加的实例启动新空间。

有关 Amazon EC2 实例的列表,请参阅实例类型

有关内存容量更大的实例的更多信息,请参阅内存优化型实例

未通过 ping 测试

在某些情况下,您的基础模型评估任务会失败,因为在 SageMaker AI 部署您的终端节点时,它没有通过 ping 检查。如果不能通过 ping 测试,则会出现以下错误:

ClientError: Error hosting endpoint your_endpoint_name: Failed. Reason: The primary container for production variant AllTraffic did not pass the ping health check. Please check CloudWatch logs for this endpoint..., Job exited for model: your_model_name of model_type: your_model_type

如果作业出现此错误,请等待几分钟后再次运行作业。如果错误仍然存在,请联系 Amazon A SageMaker I 的 Su AWS pp ort 或AWS 开发者论坛

在 SageMaker AI 控制台中找不到基础模型评估

要使用 Clari SageMaker fy 基础模型评估,您必须升级到全新的 Studio 体验。截至 2023 年 11 月 30 日,之前的亚马逊 SageMaker Studio 体验现在被命名为 Amazon St SageMaker udio Classic。基础评估功能只能在更新的体验中使用。有关如何更新 Studio 的信息,请参阅 从亚马逊 SageMaker Studio 经典版迁移

您的模型不支持及时定型

只有部分 JumpStart 型号支持即时刻板印象。如果您选择了不支持的 JumpStart 型号,则会出现以下错误:

{"evaluationMetrics":"This model does not support Prompt stereotyping evaluation. Please remove that evaluation metric or select another model that supports it."}

如果您收到此错误,则无法在基础评估中使用所选模型。 SageMaker Clarify 目前正在努力更新所有 JumpStart 模型,以便快速完成陈规定型任务,以便它们可用于基础模型评估。

数据集验证错误(人工)

使用人工的模型评测任务中的自定义提示数据集必须使用 JSON 行格式和 .jsonl 扩展名进行格式化。

启动任务时,会对提示数据集中的每个 JSON 对象进行相互验证。如果其中一个 JSON 对象无效,则会出现以下错误。

Customer Error: Your input dataset could not be validated. Your dataset can have up to 1000 prompts. The dataset must be a valid jsonl file, and each prompt valid json object.To learn more about troubleshooting dataset validations errors, see Troubleshooting guide. Job executed for models: meta-textgeneration-llama-2-7b-f, pytorch-textgeneration1-alexa20b.

要使自定义提示数据集通过所有验证,JSON 行文件中所有 JSON 对象的以下内容必须为 true

  • 提示数据集文件中的每一行都必须是有效的 JSON 对象。

  • 引号 (") 等特殊字符必须正确转义。例如,如果您的提示如下 "Claire said to the crowd, "Bananas are the best!"",则需要使用 \"Claire said to the crowd, \"Bananas are the best!\"" 来转义引号。

  • 有效的 JSON 对象必须至少包含 prompt 键/值对。

  • 一个提示数据集文件中不能包含超过 1,000 个 JSON 对象。

  • 如果在任何 JSON 对象中指定了 responses 键,则所有 JSON 对象中都必须有该键。

  • responses 键中对象的最大数量为 1。如果要比较多个模型的响应,则每个模型都需要一个单独的 BYOI 数据集。

  • 如果您在任何 JSON 对象中指定了 responses 键,那么它在所有 responses 对象中也必须包含 modelIdentifiertext 键。