本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
控制台上的 AWS Glue 作业运行状态
您可以查看 AWS Glue 提取、转换和加载(ETL)任务在运行时或停止后的状态。您可以使用 AWS Glue 控制台查看状态。有关作业运行状态的更多信息,请参阅 AWS Glue 作业运行状态。
访问任务监控控制面板
您可以在 AWS Glue 导航窗格中的 ETL 作业下选择作业运行监控链接,以访问作业监控控制面板。
任务监控控制面板概览
任务监控控制面板提供任务运行的总体摘要,以及状态 Running (正在运行)、Canceled (已取消)、Success (成功) 或者 Failed (失败)。其他磁贴提供总体任务运行成功率、任务的预估 DPU 使用率,以及按任务类型、工件类型和天细分的任务状态计数。
磁贴中的图形是交互式。您可以选择图形中的任意数据块来运行筛选条件,仅显示页面底部 Job runs (任务运行) 表中的任务。
您可以使用 Date range (日期范围) 选择器更改此页面上显示的信息的日期范围。更改日期范围时,信息磁贴会进行调整,显示代表当前日期之前指定天数的值。如果您从日期范围选择器中选择 Custom (自定义),您还可以使用特定日期范围。
任务运行视图
注意
您可以在 90 天内访问工作流和任务运行的任务运行历史记录。
Job runs (任务运行) 资源列表显示符合指定日期范围和筛选条件的任务。
您可以根据其他条件(如状态、工件类型、任务类型和任务名称)筛选任务。在表格顶部的筛选条件框中,您可以输入要用作筛选条件的文本。当您输入文本时,将使用包含匹配文本的行更新表结果。
您可以从任务监控控制面板上的图形中选择元素,查看任务的子集。例如,如果您选择 Job runs summary (任务运行摘要) 磁贴中正在运行的任务的数量,则 Job runs (任务运行) 列表仅显示当前状态为 Running
的任务。如果您选择 Worker type breakdown (工件类型细分) 条形图,则 Job runs (任务运行) 列表中仅显示具有匹配工件类型和状态的任务运行。
Job runs (任务运行) 资源列表显示任务运行的详细信息。可以通过选择列标题对表中的行进行排序。此表包含以下信息:
属性 | 描述 |
---|---|
作业名称 | 作业的名称。 |
类型 |
任务环境的类型:
|
开始时间 |
此任务运行的启动日期和时间。 |
结束时间 |
此任务运行的完成日期和时间。 |
运行状态 |
任务运行的当前状态。值可以是:
|
运行时间 | 任务运行使用资源的时间长度(以秒为单位)。 |
容量 |
此任务运行时可分配的 AWS Glue 数据处理单元(DPU)的最大数量。有关容量规划的更多信息,请参阅《AWS Glue 开发人员指南》中的 DPU 容量规划监控。 |
工作线程类型 |
任务运行时分配的预定义工件的类型。值可以是
|
DPU 小时 |
任务运行使用的 DPU 的估计数量。DPU 是处理能力的相对衡量标准。DPU 用于确定任务运行成本。有关更多信息,请参阅 AWS Glue 价格页面 |
您可以在列表中选择任何任务运行并查看其他信息。选择任务运行,然后执行以下任一操作:
-
选择 Actions (操作) 菜单和 View job (查看任务) 选项,在可视化编辑器中查看任务。
-
选择 Actions (操作) 菜单和 Stop run (停止运行) 选项,停止任务的当前运行。
-
选择 View CloudWatch logs (查看 CloudWatch 日志) 按钮,查看该任务的任务运行日志。
-
选择查看详细信息可查看“作业运行详细信息”页面。
查看任务运行日志
您可通过多种方式查看任务日志:
-
在 Monitoring (监控) 页面中的 Job runs (任务运行) 表中,选择任务运行,然后选择 View CloudWatch logs (查看 CloudWatch 日志)。
-
在可视化任务编辑器中,在任务的 Runs (运行) 选项卡上,选择超链接以查看日志:
-
Logs (日志) – 链接到为任务运行启用连续日志记录时写入的 Apache Spark 任务日志。当您选择此链接时,它会将您转到
/aws-glue/jobs/logs-v2
日志组中的 Amazon CloudWatch 日志。默认情况下,日志会排除无用的 Apache Hadoop YARN 检测信号和 Apache Spark 驱动程序或执行程序日志消息。有关连续日志记录的更多信息,请参阅的《AWS Glue 开发人员指南》中的连续日志记录 AWS Glue 任务。 -
Error logs (错误日志) – 链接到写入此任务运行的
stderr
的日志。当您选择此链接时,它会将您转到/aws-glue/jobs/error
日志组中的 Amazon CloudWatch 日志。您可以使用这些日志查看有关任务运行期间遇到的错误的详细信息。 -
Output logs (输出日志) – 链接到写入此任务运行的
stdout
的日志。当您选择此链接时,它会将您转到/aws-glue/jobs/output
日志组中的 Amazon CloudWatch 日志。您可以使用这些日志,查看有关在 AWS Glue Data Catalog 中创建的表和遇到的错误的详细信息。
-
查看任务运行的详细信息
您可以在 Monitoring (监控) 页面上的 Job runs (任务运行) 列表中选择任务,然后选择 View run details (查看运行详细信息),查看该任务运行的详细信息。
任务运行详细信息页面上显示的信息包括:
属性 | 描述 |
---|---|
作业名称 | 作业的名称。 |
运行状态 |
任务运行的当前状态。值可以是:
|
Glue 版本 | 作业运行使用的 AWS Glue 版本。 |
最近的尝试 | 此作业运行的自动重试次数。 |
开始时间 |
此任务运行的启动日期和时间。 |
结束时间 |
此任务运行的完成日期和时间。 |
开始时间 |
准备运行作业运行所花费的时间。 |
执行时间 |
运行作业脚本花费的时间。 |
触发器名称 |
与作业关联的触发器的名称。 |
上次修改日期 |
上次修改作业的日期。 |
安全配置 |
作业的安全配置,包括 Amazon S3 加密、CloudWatch 加密和作业书签加密设置。 |
超时 | 作业运行超时阈值。 |
已分配容量 |
此任务运行时可分配的 AWS Glue 数据处理单元(DPU)的最大数量。有关容量规划的更多信息,请参阅《AWS Glue 开发人员指南》中的 DPU 容量规划监控。 |
最大容量 |
任务运行可用的最大容量。 |
工作线程数 | 作业运行所用的工作线程数。 |
工作线程类型 |
为任务运行分配的预定义工件的类型。值可以是
|
日志 | 指向连续日志记录(/aws-glue/jobs/logs-v2 )的作业日志链接 |
输出日志 | 指向作业输出日志文件(/aws-glue/jobs/output )的链接。 |
错误日志 | 指向作业错误日志文件(/aws-glue/jobs/error )的链接。 |
您还可以查看以下附加项目,这些项目在您查看最近任务运行的信息时可用。有关更多信息,请参阅 查看最近任务运行的信息。
输入参数
连续日志
指标 – 您可以直观地查看基本指标。有关所包含指标的更多信息,请参阅 查看 Spark 作业运行的 Amazon CloudWatch 指标。
Spark UI – 您可以在 Spark UI 中直观地查看任务的 Spark 日志。有关使用 Spark Web UI 的更多信息,请参阅 使用 Apache Spark Web UI 监控作业。按照 为 AWS Glue 作业启用 Apache Spark Web UI 中描述的过程启用此功能。
查看 Spark 作业运行的 Amazon CloudWatch 指标
在任务运行的详细信息页面上的 Run details (运行详细信息) 部分下面,您可以查看任务指标。AWS Glue Studio 将任务指标发送到 Amazon CloudWatch,用于每次任务运行。
AWS Glue 每 30 秒将指标报告到 Amazon CloudWatch AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是,AWS Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。
注意
您必须配置您的账户才能访问 Amazon CloudWatch。
指标提供有关任务运行的信息,例如:
-
ETL Data Movement (ETL 数据移动) – 从 Amazon S3 中读取或向其中写入的字节数。
-
Memory Profile: Heap used (内存配置文件:使用的堆) – Java 虚拟机(JVM)堆使用的内存字节数。
-
Memory Profile: heap usage (内存配置文件:堆使用情况) – JVM 堆使用的内存所占的比例(比例:0–1)。
-
CPU Load (CPU 负载) – 使用的 CPU 系统负载所占的比例(比例:0–1)。
查看 Ray 作业运行的 Amazon CloudWatch 指标
在任务运行的详细信息页面上的 Run details (运行详细信息) 部分下面,您可以查看任务指标。AWS Glue Studio 将任务指标发送到 Amazon CloudWatch,用于每次任务运行。
AWS Glue 每 30 秒将指标报告到 Amazon CloudWatch AWS Glue 指标表示先前报告的值的增量值。在适当时,指标控制面板会聚合(合计)30 秒值以获取整个最后一分钟的值。但是,AWS Glue 传递给 Amazon CloudWatch 的 Apache Spark 指标通常是表示在报告它们时的当前状态的绝对值。
注意
您必须配置您的账户才能访问 Amazon CloudWatch,如中所述。
在 Ray 作业中,您可以查看以下聚合指标图表。借助这些功能,您可以建立集群和任务的配置文件,也可以访问有关每个节点的详细信息。支持这些图表的时间序列数据可在 CloudWatch 中找到,以供进一步分析。
- 任务配置文件:任务状态
-
显示系统中 Ray 任务的数量。每个任务生命周期都有自己的时间序列。
- 任务配置文件:任务名称
-
显示系统中 Ray 任务的数量。仅显示待处理任务和活动任务。每种类型的任务(按名称)都有自己的时间序列。
- 集群配置文件:正在使用的 CPU
-
显示使用的 CPU 内核数。每个节点都有自己的时间序列。节点由 IP 地址标识,IP 地址是临时的,仅用于识别。
- 集群配置文件:对象存储内存使用情况
-
显示 Ray 对象缓存的内存使用情况。每个内存位置(物理内存、缓存在磁盘上以及溢出在 Amazon S3 中)都有自己的时间序列。对象存储管理集群中所有节点的数据存储。有关更多信息,请参阅 Ray 文档中的 Objects
。 - 集群配置文件:节点数
-
显示为集群配置的节点数量。
- 节点详细信息:CPU 使用情况
-
以百分比形式显示每个节点上的 CPU 使用率。每个系列都显示节点上所有内核的 CPU 使用率的汇总百分比。
- 节点详细信息:内存使用情况
-
显示每个节点的内存使用情况(以 GB 为单位)。每个系列都显示节点上所有进程之间聚合的内存,包括 Ray 任务和 Plasma 存储进程。这不会反映存储到磁盘或溢出到 Amazon S3 的对象。
- 节点详细信息:磁盘使用情况
-
显示每个节点的磁盘使用情况(以 GB 为单位)。
- 节点详细信息:磁盘 I/O 速度
-
以 KB/s 为单位显示每个节点上的磁盘 I/O。
- 节点详细信息:网络 I/O 吞吐量
-
以 KB/s 为单位显示每个节点上的网络 I/O。
- 节点详细信息:Ray 组件的 CPU 使用情况
-
以所占核心的分数来显示 CPU 使用率。每个节点上的每个 ray 组件都有自己的时间序列。
- 节点详细信息:Ray 组件的内存使用情况
-
以 GiB 为单位显示内存使用情况。每个节点上的每个 ray 组件都有自己的时间序列。