监控 AWS Glue Spark 作业
主题
AWS Glue Studio 中可用的 Spark 指标
Metrics (指标) 选项卡显示启用任务运行和分析时收集的指标。Spark 作业显示了以下图表:
ETL 数据移动
内存配置文件:驱动程序和执行程序
选择 View additional metrics (查看其他指标) 显示以下图表:
ETL 数据移动
内存配置文件:驱动程序和执行程序
执行程序之间的数据随机排序
CPU 负载:驱动程序和执行程序
作业执行:活动执行程序、已完成的阶段和需求最大的执行程序
如果已启用任务以收集指标,系统则会将这些图表的数据推送到 CloudWatch 指标。有关如何启用指标和解释图表的更多信息,请参阅作业监控和调试。
例 ETL 数据移动图表
ETL 数据移动图表会显示以下指标:
所有执行程序从 Amazon S3 读取的字节数 – glue.ALL.s3.filesystem.read_bytes
-
所有执行程序写入 Amazon S3 的字节数 – glue.ALL.s3.filesystem.write_bytes
例 内存配置文件图表
内存配置文件图表会显示以下指标:
驱动程序的 JVM 堆用于此驱动程序的内存量(比例:0-1),用 executorId 标识的执行程序,或所有执行程序 –
例 执行程序之间的数据随机排序图表
执行程序之间的数据随机排序图表显示了以下指标:
所有执行程序用于在它们之间对数据进行随机排序所读取的字节数 -glue.driver.aggregate.shuffleLocalBytesRead
-
所有执行程序用于在它们之间对数据进行随机排序所写入的字节数 -glue.driver.aggregate.shuffleBytesWritten
例 CPU 负载图表
CPU 负载图表显示以下指标:
驱动程序使用的 CPU 系统负载量(比例:0-1),用 executorId 标识的执行程序,或所有执行程序 –
例 作业执行图表
作业执行图表显示以下指标: