在 AWS Glue 控制台中编辑 Spark 脚本 - AWS Glue

在 AWS Glue 控制台中编辑 Spark 脚本

脚本包含从源中提取数据、转换数据并将数据加载到目标中的代码。AWS Glue 在启动作业时运行脚本。

AWS Glue ETL 脚本可使用 Python 或 Scala 编码。Python 脚本使用 PySpark Python 方言的扩展语言来运行提取、转换和加载 (ETL) 作业。脚本包含扩展构造,用于处理 ETL 转换。当您为作业自动生成源代码逻辑时,会创建脚本。您可以编辑此脚本,也可以提供自己的脚本来处理您的 ETL 作业。

有关如何在 AWS Glue 中定义和编辑脚本的信息,请参阅 AWS Glue 编程指南

其他库或文件

如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:

Python 库路径

以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。

注意

只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。

从属 jars 路径

脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。

注意

目前,只能使用纯 Java 或 Scala (2.11) 库。

引用的文件路径

以逗号分隔的到脚本所需的其他文件(例如,配置文件)的 Amazon S3 路径。