使用数据源的数据目录表
对于 Amazon S3 和连接器之外的所有数据源,表必须位于您所选择源类型的 AWS Glue Data Catalog 中。AWS Glue 不会创建数据目录表。
基于数据目录表配置数据源节点
-
转到新任务或已保存任务的可视编辑器。
-
在任务图中选择一个数据源节点。
-
选择 Data source properties (数据源属性) 选项卡,然后输入以下信息:
-
S3 source type (S3 源类型):(仅适用于 Amazon S3 数据源)选择选项 Select a Catalog table (选择目录表) 以使用现有 AWS Glue Data Catalog 表。
-
Database (数据库):在数据目录中选择包含要用于此任务的源表的数据库。您可以使用搜索字段按名称搜索数据库。
-
Table (表):从列表中选择与源数据关联的表。此表必须已位于 AWS Glue Data Catalog 中。您可以使用搜索字段按名称搜索表。
-
Partition predicate (分区谓词):(仅适用于 Amazon S3 数据源)输入基于仅包含分区列的 Spark SQL 的布尔表达式。例如:
"(year=='2020' and month=='04')"
。 -
Temporary directory (临时目录):(仅适用于 Amazon Redshift 数据源)输入 Amazon S3 中工作目录位置的路径,在其中您的 ETL 任务可以写入临时中间结果。
-
Role associated with the cluster (与集群关联的角色):(仅适用于 Amazon Redshift 数据源)为要使用的 ETL 任务输入角色,该角色包含 Amazon Redshift 集群权限。有关更多信息,请参阅 数据源和数据目标权限。
-