AWS 中 Apache Spark 的生成式人工智能故障排除 - AWS Glue

AWS 中 Apache Spark 的生成式人工智能故障排除

Apache Spark 预览版的生成式人工智能故障排除适用于在 AWS Glue 4.0 中运行的作业,并在以下 AWS 区域可用:美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(俄勒冈州)、美国西部(北加利福尼亚)、欧洲地区(爱尔兰)、欧洲地区(爱尔兰)、欧洲地区(斯德哥尔摩)、亚太地区(东京)、亚太地区(孟买)和亚太地区(悉尼)。预览版功能可能会随时更改。

AWS 中 Apache Spark 作业的生成式人工智能故障排除是一项新功能,可帮助数据工程师和科学家轻松诊断和修复其 Spark 应用程序中的问题。该功能利用机器学习和生成式人工智能技术,分析 Spark 作业中的问题,并提供详细的根本原因分析以及解决这些问题的可行建议。

Apache Spark 的生成式人工智能故障排除如何工作?

对于失败的 Spark 作业,生成式人工智能故障排除会分析作业元数据以及与作业错误签名相关的精确指标和日志,以生成根本原因分析,并建议具体的解决方案和最佳实践来帮助解决作业失败。

为您的作业设置 Apache Spark 的生成式人工智能故障排除

注意

在预览期间,此功能可帮助对在执行时间前 30 分钟内失败的 AWS Glue 4.0 作业进行故障排除。

配置 IAM 权限

向 AWS Glue 中的作业授予 Spark 故障排除功能所使用 API 的权限需要相应的 IAM 权限。您可以通过将以下自定义 AWS 策略附加到您的 IAM 身份(例如用户、角色或组)来获取权限。

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "glue:StartCompletion", "glue:GetCompletion" ], "Resource": [ "arn:aws:glue:*:*:completion/*" ] } ] }
注意

预览期间,Spark 故障排除功能没有通过 AWS SDK 提供的 API(可供您以编程方式使用)。IAM 策略中使用了以下两个 API,用于通过 AWS Glue Studio 控制台实现这种体验:StartCompletionGetCompletion

分配权限

要提供访问权限,请为您的用户、组或角色添加权限:

从失败的作业运行中运行故障排除分析

您可以通过 AWS Glue 控制台中的多条路径访问故障排除功能。以下介绍如何开始使用:

选项 1:从作业列表页面

  1. 打开 AWS Glue 控制台,网址为 https://console.aws.amazon.com/glue/

  2. 在导航窗格中,选择 ETL 作业

  3. 在作业列表中找到失败的作业。

  4. 在作业详细信息部分中选择运行选项卡。

  5. 单击您要分析的失败的作业运行。

  6. 选择使用人工智能进行故障排除以开始分析。

  7. 故障排除分析完成后,您可以在屏幕底部的故障排除分析选项卡中查看根本原因分析和建议。

GIF 显示失败运行的端到端实现以及运行人工智能功能时的故障排除。

选项 2:使用作业运行监控页面

  1. 导航到作业运行监控页面。

  2. 找到失败的作业运行。

  3. 选择操作下拉菜单。

  4. 选择使用人工智能进行故障排除

GIF 显示失败运行的端到端实现以及运行人工智能功能时的故障排除。

选项 3:从作业运行详细信息页面

  1. 通过单击运行选项卡中失败的运行查看详细信息,或者从作业运行监控页面中选择该作业运行,导航到失败的作业运行的详细信息页面。

  2. 在作业运行详细信息页面中,找到故障排除分析选项卡。

支持的故障排除类别(预览版)

此服务侧重于数据工程师和开发者在其 Spark 应用程序中经常遇到的三类主要问题:

  • 资源设置和访问错误:在 AWS Glue 中运行 Spark 应用程序时,资源设置和访问错误是最常见但最难诊断的问题之一。当 Spark 应用程序尝试与 AWS 资源交互,但遇到权限问题、缺少资源或配置问题时,通常会发生这些错误。

  • Spark 驱动程序和执行程序内存问题:Apache Spark 作业中与内存相关的错误可能很难诊断和解决。当数据处理要求超出驱动程序节点或执行程序节点上可用的内存资源时,通常会表现为这类错误。

  • Spark 磁盘容量问题:AWS Glue Spark 作业中与存储相关的错误通常会在随机操作、数据溢出或处理大规模数据转换时出现。这些错误可能特别棘手,因为它们可能要等到您的作业运行一段时间后才会表现出来,从而可能浪费宝贵的计算时间和资源。

注意

在生产环境中实施任何建议的更改之前,请仔细检查建议的更改。该服务根据模式和最佳实践提供建议,但您的特定用例可能需要考虑其他注意事项。