对 SageMaker 澄清处理任务进行故障排除 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

对 SageMaker 澄清处理任务进行故障排除

如果您在使用 Clari SageMaker fy 处理作业时遇到故障,请查阅以下场景以帮助确定问题。

注意

失败原因和退出消息旨在包含描述性消息和运行期间遇到的异常(如果遇到异常)。错误的常见原因是参数缺失或无效。如果遇到不清楚、令人困惑或误导性消息,或者找不到解决方案,请提交反馈。

处理作业无法完成

如果处理作业无法完成,您可以尝试以下方法:

  • 直接在运行作业的笔记本中查看作业日志。作业日志位于您启动运行的笔记本单元的输出中。

  • 检查作业登录信息 CloudWatch。

  • 在笔记本中添加以下行以描述上次处理作业,并查找失败原因和退出消息:

    • clarify_processor.jobs[-1].describe()

  • 运行以下 AWS CLI; 命令来描述处理任务并查找失败原因和退出消息:

    • aws sagemaker describe-processing-job —processing-job-name <processing-job-id>

处理作业运行时间过长

如果处理作业运行时间过长,请使用以下方法查找根本原因。

检查资源配置是否足以处理计算负载。要加快作业速度,请尝试以下操作:

  • 使用更大的实例类型。 SageMaker Clarify 反复查询模型,更大的实例可以显著缩短计算时间。有关可用实例及其内存大小、带宽和其他性能详情的列表,请参阅 Amazon SageMaker 定价

  • 添加更多实例。 SageMaker Clarify 可以使用多个实例并行解释多个输入数据点。要启用并行计算,请在调用 SageMakerClarifyProcessor 时将 instance_count 设置为大于 1。有关更多信息,请参阅 如何运行 parallel Clar SageMaker ify 处理作业。如果您增加实例数量,请监控端点的性能,以检查其是否可以部署增加的负载。有关更多信息,请参阅 从实时端点捕获数据

  • 如果你在计算 SHapley Additive exPlanations (SHAP) 值,减少分析配置文件中的num_samples参数。样本数量直接影响以下方面:

    • 发送到端点的合成数据集的大小

    • 作业运行时间

    减少样本数量也可能导致估算精度降低 SHAP 价值观。有关更多信息,请参阅 分析配置文件

处理作业已完成,但没有结果,您会收到一条 CloudWatch 警告消息

如果处理作业已完成但未找到任何结果,则 CloudWatch 日志会生成一条警告消息,显示已收到 Signal 15,正在清理中。 此警告表示任务已停止,要么是因为客户请求调用了 StopProcessingJobAPI,要么是因为任务已用完分配的完成时间。如果是后一种情况,请在作业配置 (max_runtime_in_seconds) 中检查最大运行时间,然后根据需要增加运行时间。

无效分析配置的错误消息

  • 如果您收到错误消息 “无法将分析配置加载为” JSON。 ,这意味着处理作业的分析配置输入文件不包含有效的JSON对象。使用 JSON linter 检查JSON对象的有效性。

  • 如果您收到错误消息分析配置架构验证错误。,这意味着处理作业的分析配置输入文件包含未知字段或某些字段值的类型无效。查看文件中的配置参数,并与分析配置文件中列出的参数进行核对。有关更多信息,请参阅 分析配置文件

多个或所有指标的偏差指标计算失败

如果您收到错误消息预测标签列中没有标签值,正预测索引系列包含所有错误值。预测标签列系列数据类型与标签列系列不同。之一,请尝试以下操作:

  • 检查使用的数据集是否正确。

  • 检查数据集是否过小;例如,它是否只包含几行。这可能会导致模型输出具有相同的值或数据类型推断错误。

  • 检查标签或刻面是被视为连续的还是分类的。 SageMaker Clarify 使用启发式方法来确定. DataType 对于训练后的偏差指标,模型返回的数据类型可能与数据集中的数据类型不匹配,或者 SageMaker Clarify 可能无法对其进行正确转换。

    • 在偏差报告中,对于分类列,您应该看到单个值;对于连续列,您应该看到一个区间。

    • 例如,如果一列的值为 0.0 和 1.0(浮点数),即使唯一值太少,也会被视为连续值。

分析配置与数据集/模型输入/输出之间不匹配

  • 检查分析配置中的基准格式是否与数据集格式相同。

  • 如果您收到错误消息无法将字符串转换为浮点数。,请检查格式是否正确。它还可能表明模型预测的格式与标签列不同,或者可能表明标签或概率的配置不正确。

  • 如果您收到错误消息无法找到分面。标题必须包含标签。配置中的标题与数据集中的列数不匹配。未找到特征名称。,请检查标题是否与列匹配。

  • 如果您收到错误消息,则数据必须包含要素。 ,检查内容模板中的JSON线条并将其与数据集样本(如果有)进行比较。

模型返回“500 内部服务器错误”,或者由于模型错误,容器会回退到按记录预测

如果您收到错误消息由于模型错误而回退到按记录预测。,这可能表明模型无法处理批次大小,或被节流,或只是由于序列化问题而不接受容器传递的输入。您应该查看 SageMaker 终端节点的 CloudWatch 日志,并查找错误消息或回溯信息。对于模型节流情况,使用不同的实例类型或增加端点的实例数量可能会有所帮助。

执行角色无效

这表明提供的角色不正确或缺少所需权限。检查用于配置处理任务的角色及其权限,并验证该角色的权限和信任策略。

无法下载数据

这表明无法下载作业输入以启动作业。检查数据集和配置输入的存储桶名称和权限。

无法连接到 SageMaker

这表示任务无法到达 SageMaker 服务端点。检查处理任务的网络配置设置并验证虚拟私有云 (VPC) 配置。