使用数据源的数据目录表 - AWS Glue

使用数据源的数据目录表

对于 Amazon S3 和连接器之外的所有数据源,表必须位于您所选择源类型的 AWS Glue Data Catalog 中。AWS Glue 不会创建数据目录表。

基于数据目录表配置数据源节点
  1. 转到新任务或已保存任务的可视编辑器。

  2. 在任务图中选择一个数据源节点。

  3. 选择 Data source properties (数据源属性) 选项卡,然后输入以下信息:

    • S3 source type (S3 源类型):(仅适用于 Amazon S3 数据源)选择选项 Select a Catalog table (选择目录表) 以使用现有 AWS Glue Data Catalog 表。

    • Database (数据库):在数据目录中选择包含要用于此任务的源表的数据库。您可以使用搜索字段按名称搜索数据库。

    • Table (表):从列表中选择与源数据关联的表。此表必须已位于 AWS Glue Data Catalog 中。您可以使用搜索字段按名称搜索表。

    • Partition predicate (分区谓词):(仅适用于 Amazon S3 数据源)输入基于仅包含分区列的 Spark SQL 的布尔表达式。例如:"(year=='2020' and month=='04')"

    • Temporary directory (临时目录):(仅适用于 Amazon Redshift 数据源)输入 Amazon S3 中工作目录位置的路径,在其中您的 ETL 任务可以写入临时中间结果。

    • Role associated with the cluster (与集群关联的角色):(仅适用于 Amazon Redshift 数据源)为要使用的 ETL 任务输入角色,该角色包含 Amazon Redshift 集群权限。有关更多信息,请参阅 数据源和数据目标权限