在 AWS Glue 控制台中编辑 Spark 脚本
脚本包含从源中提取数据、转换数据并将数据加载到目标中的代码。AWS Glue 在启动作业时运行脚本。
AWS Glue ETL 脚本可使用 Python 或 Scala 编码。Python 脚本使用 PySpark Python 方言的扩展语言来运行提取、转换和加载 (ETL) 作业。脚本包含扩展构造,用于处理 ETL 转换。当您为作业自动生成源代码逻辑时,会创建脚本。您可以编辑此脚本,也可以提供自己的脚本来处理您的 ETL 作业。
有关如何在 AWS Glue 中定义和编辑脚本的信息,请参阅 AWS Glue 编程指南。
其他库或文件
如果您的脚本需要额外的库或文件,您可以指定它们,如下所示:
- Python 库路径
-
以逗号分隔的到脚本所需的 Python 库的 Amazon Simple Storage Service(Amazon S3)路径。
注意
只能使用纯 Python 库。尚不支持依赖于 C 扩展的库,如 pandas Python 数据分析库。
- 从属 jars 路径
-
脚本所需的以逗号分隔的到 JAR 文件的 Amazon S3 路径。
注意
目前,只能使用纯 Java 或 Scala (2.11) 库。
- 引用的文件路径
-
以逗号分隔的到脚本所需的其他文件(例如,配置文件)的 Amazon S3 路径。