选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

处理 AWS Glue 作业

聚焦模式
处理 AWS Glue 作业 - AWS Glue

AWS Glue 作业将封装连接到源数据的脚本,处理该脚本,然后将其写入数据目标。通常,作业运行提取、转换和加载 (ETL) 脚本。作业还可以运行通用 Python 脚本(Python shell 作业)。AWS Glue 触发器 可以根据计划或事件或者按需启动作业。您可以监控作业运行以了解运行时指标(例如完成状态、持续时间和开始时间)。

您可以使用 AWS Glue 生成的脚本,也可以提供您自己的脚本。借助源架构和目标位置或架构,AWS Glue 代码生成器可以自动创建 Apache Spark API(PySpark)脚本。您可以将此脚本用作起点,并对其进行编辑以满足您的目标。

AWS Glue 可以用多种数据格式编写输出文件,包括 JSON、CSV、ORC(优化的行列式)、Apache Parquet 和 Apache Avro。对于某些数据格式,可以编写常见的压缩格式。

AWS Glue 支持以下类型的作业:

  • Spark 任务会在由 AWS Glue 托管的 Apache Spark 环境中执行。它将批量处理数据。

  • 流式处理 ETL 作业与 Spark 作业类似,只不过前者在数据流上执行 ETL。它使用 Apache Spark Structured Streaming 框架。某些 Spark 作业功能不可用于流式处理 ETL 作业。

  • Python shell 任务将 Python 脚本作为 shell 运行,支持的 Python 版本具体取决于您使用的 AWS Glue 版本。您可以使用这些作业来计划和运行不需要 Apache Spark 环境的任务。

  • Ray 是一个开源分布式计算框架,可以用来纵向扩展工作负载,其重点是 Python。AWS GlueRay 作业和交互式会话允许您在 AWS Glue 中使用 Ray。

以下几个部分提供有关 AWS Glue 中的 ETL 和 Ray 作业的信息。

下一主题:

AWS Glue 版本

上一主题:

管理任务
隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。