后续步骤 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

后续步骤

了解 AWS Glue 转换

为了提高数据处理的效率, AWS Glue 包括内置的转换函数。这些函数在名为 a 的数据结构中从一个变换传递到另一个变换 DynamicFrame,该数据结构是 Apache Spark SQL DataFrame 的扩展。A 与 a DynamicFrame 类似 DataFrame,不同之处在于每条记录都是自描述的,因此最初不需要架构。

要熟悉几个 AWS Glue PySpark 内置函数,请参阅博客文章 “在不使用 AWS 账户的情况下在本地构建 AWS Glue ETL 管道”。

编写您的第一个 ETL 作业

如果你以前没有写过 ETL 作业,你可以先使用三种 AWS Glue ETL 作业类型将数据转换为 Apache Par quet 模式。

如果您有编写 ETL 作业的经验,则可以使用这些AWS Glue GitHub 示例进行更深入的探索。

定价

有关定价信息,请参阅 AWS Glue 定价。您还可以使用AWS Pricing Calculator来估算使用不同 AWS Glue 组件的每月成本。