本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
视觉作业 API
Visual 作业API允许您使用 AWS Glue API来自表示作业可视化配置的JSON对象创建数据集成 AWS Glue 作业。
为创建或更新任务API提供了一个列表,用于DAG在 AWS Glue Studio 中为已创建的作业注册并生成关联的代码。CodeGenConfigurationNodes
数据类型
CodeGenConfigurationNode 结构
CodeGenConfigurationNode
枚举全部有效的节点类型。可以填充其中一个成员变量,并且只能填充一个。
字段
-
AthenaConnectorSource
– 一个 AthenaConnectorSource 对象。指定一个指向 Amazon Athena 数据源的连接器。
-
JDBCConnectorSource
– 一个 JDBCConnectorSource 对象。指定JDBC数据源的连接器。
-
SparkConnectorSource
– 一个 SparkConnectorSource 对象。指定一个指向 Apache Spark 数据源的连接器。
-
CatalogSource
– 一个 CatalogSource 对象。在数据目录中指定 AWS Glue 数据存储。
-
RedshiftSource
– 一个 RedshiftSource 对象。指定一个 Amazon Redshift 数据存储。
-
S3CatalogSource
– 一个 S3 CatalogSource 对象。在数据目录中指定 Amazon S3 AWS Glue 数据存储。
-
S3CsvSource
– 一个 S3 CsvSource 对象。指定存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。
-
S3JsonSource
– 一个 S3 JsonSource 对象。指定存储在 Amazon S3 中的JSON数据存储。
-
S3ParquetSource
– 一个 S3 ParquetSource 对象。指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。
-
RelationalCatalogSource
– 一个 RelationalCatalogSource 对象。在数据目录中指定关系目录 AWS Glue 数据存储。
-
DynamoDBCatalogSource
– 一个 D ynamoDBCatalog 来源 对象。在数据DBC目录中指定 Dynamo Catalog AWS Glue 数据存储。
-
JDBCConnectorTarget
– 一个 JDBCConnectorTarget 对象。指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
-
SparkConnectorTarget
– 一个 SparkConnectorTarget 对象。指定一个使用 Apache Spark 连接器的目标。
-
CatalogTarget
– 一个 BasicCatalogTarget 对象。指定使用 AWS Glue 数据目录表的目标。
-
RedshiftTarget
– 一个 RedshiftTarget 对象。指定一个使用 Amazon Redshift 的目标。
-
S3CatalogTarget
– 一个 S3 CatalogTarget 对象。指定使用数据目录写入 Amazon S3 AWS Glue 的数据目标。
-
S3GlueParquetTarget
– 一个 S3 GlueParquetTarget 对象。指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
-
S3DirectTarget
– 一个 S3 DirectTarget 对象。指定一个写入 Amazon S3 的数据目标。
-
ApplyMapping
– 一个 ApplyMapping 对象。指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。
-
SelectFields
– 一个 SelectFields 对象。指定一个选择要保留的数据属性键的转换。
-
DropFields
– 一个 DropFields 对象。指定一个选择要删除的数据属性键的转换。
-
RenameField
– 一个 RenameField 对象。指定一个重命名单个数据属性键的转换。
-
Spigot
– 一个 Spigot 对象。指定一个将数据样本写入 Amazon S3 存储桶的转换。
-
Join
– 一个 Join 对象。指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。
-
SplitFields
– 一个 SplitFields 对象。指定一个将数据属性键拆分为两个
DynamicFrames
的转换。输出是DynamicFrames
的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。 -
SelectFromCollection
– 一个 SelectFromCollection 对象。指定一个从
DynamicFrames
的集合中选择一个DynamicFrame
的转换。输出是选定的DynamicFrame
-
FillMissingValues
– 一个 FillMissingValues 对象。指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。
-
Filter
– 一个 筛选条件 对象。指定一个转换,它将基于筛选条件将一个数据集拆分为两个。
-
CustomCode
– 一个 CustomCode 对象。指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是一个集合 DynamicFrames。
-
SparkSQL
– 一个 火花 SQL 对象。指定一种转换,您可以在其中使用 Spark SQL 语法输入SQL查询来转换数据。输出为单个
DynamicFrame
。 -
DirectKinesisSource
– 一个 DirectKinesisSource 对象。指定一个直接 Amazon Kinesis 数据源。
-
DirectKafkaSource
– 一个 DirectKafkaSource 对象。指定一个 Apache Kafka 数据存储。
-
CatalogKinesisSource
– 一个 CatalogKinesisSource 对象。在数据目录中指定 Kinesis AWS Glue 数据源。
-
CatalogKafkaSource
– 一个 CatalogKafkaSource 对象。指定数据目录中的一个 Apache Kafka 数据存储。
-
DropNullFields
– 一个 DropNullFields 对象。指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。默认情况下, AWS Glue Studio 会识别空对象,但是某些值(例如空字符串、“null” 字符串、-1 个整数或其他占位符(例如零)不会自动识别为空值。
-
Merge
– 一个 Merge 对象。指定一个转换,它将基于指定的主键将
DynamicFrame
与暂存DynamicFrame
合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。 -
Union
– 一个 Union 对象。指定一个转换,它将两个或更多数据集中的行合并到单个结果中。
-
PIIDetection
– 一个 PIIDetection 对象。指定用于识别、移除或屏蔽PII数据的转换。
-
Aggregate
– 一个 聚合 对象。指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。
-
DropDuplicates
– 一个 DropDuplicates 对象。指定一个用于从数据集中删除重复数据行的转换。
-
GovernedCatalogTarget
– 一个 GovernedCatalogTarget 对象。指定一个用于写入监管目录的数据目标。
-
GovernedCatalogSource
– 一个 GovernedCatalogSource 对象。指定监管数据目录中的一个数据源。
-
MicrosoftSQLServerCatalogSource
– 一个 M icrosoftSQLServer CatalogSource 对象。在数据目录中指定 Microsoft SQL 服务器 AWS Glue 数据源。
-
MySQLCatalogSource
– 一个 M ySQLCatalog 来源 对象。在SQL数据目录中指定我的 AWS Glue 数据源。
-
OracleSQLCatalogSource
– 一个 O racleSQLCatalog 来源 对象。在数据目录中指定 Oracle AWS Glue 数据源。
-
PostgreSQLCatalogSource
– 一个 P ostgreSQLCatalog 来源 对象。在数据目录中指定 Postgres SQL AWS Glue 数据源。
-
MicrosoftSQLServerCatalogTarget
– 一个 M icrosoftSQLServer CatalogTarget 对象。指定使用微软的目标SQL。
-
MySQLCatalogTarget
– 一个 M ySQLCatalog 目标 对象。指定使用 My 的目标SQL。
-
OracleSQLCatalogTarget
– 一个 O racleSQLCatalog 目标 对象。指定使用 Oracle 的目标SQL。
-
PostgreSQLCatalogTarget
– 一个 P ostgreSQLCatalog 目标 对象。指定使用 Postg SQL res 的目标。
-
DynamicTransform
– 一个 DynamicTransform 对象。指定由用户创建的自定义视觉转换。
-
EvaluateDataQuality
– 一个 EvaluateDataQuality 对象。指定您的数据质量评估标准。
-
S3CatalogHudiSource
– 一个 S3 CatalogHudiSource 对象。指定在数据目录中注册的 Hudi AWS Glue 数据源。数据源必须存储在 Amazon S3。
-
CatalogHudiSource
– 一个 CatalogHudiSource 对象。指定在数据目录中注册的 Hudi AWS Glue 数据源。
-
S3HudiSource
– 一个 S3 HudiSource 对象。指定存储在中的 Amazon S3 Hudi 数据源。
-
S3HudiCatalogTarget
– 一个 S3 HudiCatalogTarget 对象。指定写入数据目录中的 Hudi 数据源的目标。 AWS Glue
-
S3HudiDirectTarget
– 一个 S3 HudiDirectTarget 对象。指定写入中 Hudi 数据源的目标。 Amazon S3
-
S3CatalogDeltaSource
– 一个 S3 CatalogDeltaSource 对象。指定在数据目录中注册的 Delta Lake AWS Glue 数据源。数据源必须存储在 Amazon S3。
-
CatalogDeltaSource
– 一个 CatalogDeltaSource 对象。指定在数据目录中注册的 Delta Lake AWS Glue 数据源。
-
S3DeltaSource
– 一个 S3 DeltaSource 对象。指定存储在中的三角洲湖数据源 Amazon S3。
-
S3DeltaCatalogTarget
– 一个 S3 DeltaCatalogTarget 对象。指定写入数据目录中的 Delta Lake AWS Glue 数据源的目标。
-
S3DeltaDirectTarget
– 一个 S3 DeltaDirectTarget 对象。指定写入中三角洲湖数据源的目标 Amazon S3。
-
AmazonRedshiftSource
– 一个 AmazonRedshiftSource 对象。指定在 Amazon Redshift 中写入数据来源的目标。
-
AmazonRedshiftTarget
– 一个 AmazonRedshiftTarget 对象。指定在 Amazon Redshift 中写入数据目标的目标。
-
EvaluateDataQualityMultiFrame
– 一个 EvaluateDataQualityMultiFrame 对象。指定您的数据质量评估标准。允许多个输入数据并返回动态帧的集合。
-
Recipe
– 一个 配方 对象。指定 AWS Glue DataBrew 配方节点。
-
SnowflakeSource
– 一个 SnowflakeSource 对象。指定 Snowflake 数据来源。
-
SnowflakeTarget
– 一个 SnowflakeTarget 对象。指定写入 Snowflake 数据来源的目标。
-
ConnectorDataSource
– 一个 ConnectorDataSource 对象。指定使用标准连接选项生成的源。
-
ConnectorDataTarget
– 一个 ConnectorDataTarget 对象。指定使用标准连接选项生成的目标。
JDBCConnectorOptions结构
用于连接器的其他连接选项。
字段
-
FilterPredicate
— UTF -8 字符串,匹配. Custom string pattern #43用于筛选源中的数据的额外条件子句。例如:
BillingCity='Mountain View'
使用查询(而不是表名称)时,您应验证查询是否适用于指定的
filterPredicate
。 -
PartitionColumn
— UTF -8 字符串,匹配. Custom string pattern #43用于分区的整数列的名称。此选项仅在包含
lowerBound
、upperBound
和numPartitions
时有效。此选项的工作方式与 Spark SQL JDBC 阅读器中的工作方式相同。 -
LowerBound
– 数字(长型),至多为“无”。用于确定分区步长的最小
partitionColumn
值。 -
UpperBound
– 数字(长型),至多为“无”。用于确定分区步长的最大
partitionColumn
值。 -
NumPartitions
– 数字(长型),至多为“无”。分区的数量。此值以及
lowerBound
(包含)和upperBound
(排除)为用于拆分partitionColumn
而生成的WHERE
子句表达式构成分区步长。 -
JobBookmarkKeys
— 由 UTF -8 个字符串组成的数组。要作为排序依据的任务书签键的名称。
-
JobBookmarkKeysSortOrder
— UTF -8 字符串,匹配. Custom string pattern #43指定升序或降序排序顺序。
-
DataTypeMapping
– 键值对的映射数组。每个键都是一个 UTF -8 字符串(有效值:
ARRAY
| | | | | | | | | | | |BIGINT
| |BINARY
| |BIT
| | |BLOB
| |BOOLEAN
| |CHAR
| |CLOB
| |DATALINK
| |DATE
| |DECIMAL
| |DISTINCT
| |DOUBLE
| |FLOAT
| |INTEGER
| |JAVA_OBJECT
| |LONGNVARCHAR
| |LONGVARBINARY
| |LONGVARCHAR
| | |NCHAR
| |NCLOB
| |NULL
| |NUMERIC
| |NVARCHAR
| |OTHER
| |REAL
| |REF
| |REF_CURSOR
| |ROWID
| |SMALLINT
| |SQLXML
| |STRUCT
| |TIME
| |TIME_WITH_TIMEZONE
| |TIMESTAMP
TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
)。每个值都是一个 UTF -8 字符串(有效值:
DATE
|STRING
| |TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
| |BYTE
SHORT
|DOUBLE
)。自定义数据类型映射,用于构建从JDBC数据类型到 AWS Glue 数据类型的映射。例如,该选项通过调用驱动程序的
ResultSet.getString()
方法FLOAT
将JDBCString
类型的数据字段"dataTypeMapping":{"FLOAT":"STRING"}
映射到 Java 类型,并使用它来生成 AWS Glue 记录。ResultSet
对象由每个驱动程序实现,因此行为特定于您使用的驱动程序。要了解JDBC驱动程序如何执行转换,请参阅驱动程序的文档。
StreamingDataPreviewOptions 结构
指定与用于查看数据样本的数据预览相关的选项。
字段
-
PollingTime
– 数字(长度),至少为 10。轮询时间(以毫秒为单位)。
-
RecordPollingLimit
– 数字(长度),至少为 1。已轮询的记录的数量限制。
AthenaConnectorSource 结构
指定一个指向 Amazon Athena 数据源的连接器。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43与连接器关联的连接的名称。
-
ConnectorName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43帮助访问 AWS Glue Studio 中数据存储的连接器的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定指向 Amazon Athena 数据存储的连接的连接类型,如 marketplace.athena 或 custom.athena。
-
ConnectionTable
— UTF -8 字符串,匹配. Custom string pattern #43数据源中的表的名称。
-
SchemaName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的 CloudWatch 日志组的名称。例如,
/aws-glue/jobs/output
。 -
OutputSchemas
– GlueSchema 对象的数组。指定自定义 Athena 源的数据架构。
JDBCConnectorSource结构
指定JDBC数据源的连接器。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43与连接器关联的连接的名称。
-
ConnectorName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43帮助访问 AWS Glue Studio 中数据存储的连接器的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43连接类型,例如 marketplace.jdbc 或 custom.jdbc,用于指定与数据存储的连接。JDBC
-
AdditionalOptions
– 一个 JDBCConnectorOptions 对象。用于连接器的其他连接选项。
-
ConnectionTable
— UTF -8 字符串,匹配. Custom string pattern #43数据源中的表的名称。
-
Query
— UTF -8 字符串,匹配. Custom string pattern #44要从中获取数据的表或SQL查询。您可以指定
ConnectionTable
或query
,但不能同时指定两者。 -
OutputSchemas
– GlueSchema 对象的数组。为自定义JDBC源指定数据架构。
SparkConnectorSource 结构
指定一个指向 Apache Spark 数据源的连接器。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43与连接器关联的连接的名称。
-
ConnectorName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43帮助访问 AWS Glue Studio 中数据存储的连接器的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
用于连接器的其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定自定义 Spark 源的数据架构。
CatalogSource 结构
在数据目录中指定 AWS Glue 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
M ySQLCatalog 源结构
在SQL数据目录中指定我的 AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
P ostgreSQLCatalog 源结构
在数据目录中指定 Postgres SQL AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
O racleSQLCatalog 源结构
在数据目录中指定 Oracle AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
M icrosoftSQLServer CatalogSource 结构
在数据目录中指定 Microsoft SQL 服务器 AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
CatalogKinesisSource 结构
在数据目录中指定 Kinesis AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
WindowSize
– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema
– 布尔值。是否从传入的数据中自动确定架构。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
StreamingOptions
– 一个 KinesisStreamingSourceOptions 对象。用于 Kinesis 串流数据源的其他选项。
-
DataPreviewOptions
– 一个 StreamingDataPreviewOptions 对象。用于数据预览的其他选项。
DirectKinesisSource 结构
指定一个直接 Amazon Kinesis 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
WindowSize
– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema
– 布尔值。是否从传入的数据中自动确定架构。
-
StreamingOptions
– 一个 KinesisStreamingSourceOptions 对象。用于 Kinesis 串流数据源的其他选项。
-
DataPreviewOptions
– 一个 StreamingDataPreviewOptions 对象。用于数据预览的其他选项。
KinesisStreamingSourceOptions 结构
用于 Amazon Kinesis 串流数据源的其他选项。
字段
-
EndpointUrl
— UTF -8 字符串,匹配. Custom string pattern #43Kinesis 端点的。URL
-
StreamName
— UTF -8 字符串,匹配. Custom string pattern #43Kinesis 数据流的名称。
-
Classification
— UTF -8 字符串,匹配. Custom string pattern #43一个可选分类。
-
Delimiter
— UTF -8 字符串,匹配. Custom string pattern #43指定分隔符。
-
StartingPosition
— UTF -8 字符串(有效值:latest="LATEST"
| |trim_horizon="TRIM_HORIZON"
earliest="EARLIEST"
|timestamp="TIMESTAMP"
)。要从中读取数据的 Kinesis 数据流中的起始位置。可能的值是
"latest"
、"trim_horizon"
"earliest"
、或模式UTC格式的时间戳字符串yyyy-mm-ddTHH:MM:SSZ
(其中Z
表示带有 +/-UTC 的时区偏移量。 例如:“2023-04-04T 08:00:00-04:00”)。默认值为"latest"
。注意:仅 AWS Glue 版本 4.0 或更高版本支持使用 startingPosition “” UTC 格式的时间戳字符串值。
-
MaxFetchTimeInMs
– 数字(长型),至多为“无”。作业执行程序从 Kinesis 数据流中读取当前批处理记录所花费的最长时间,以毫秒为单位指定。在这段时间内可能会
GetRecords
API拨打多个电话。默认值为1000
。 -
MaxFetchRecordsPerShard
– 数字(长型),至多为“无”。每个微批次将从 Kinesis 数据流中的每个分片获取的最大记录数。注意:如果流式传输作业已经从 Kinesis 读取了额外的记录(在同一个 get-records 调用中),则客户端可以超过此限制。如果
MaxFetchRecordsPerShard
需要严格,则必须是MaxRecordPerRead
的整数倍。默认值为100000
。 -
MaxRecordPerRead
– 数字(长型),至多为“无”。每次操作中从 Kinesis 数据流中提取的最大记录数。 getRecords 默认值为
10000
。 -
AddIdleTimeBetweenReads
– 布尔值。在两个连续 getRecords 操作之间添加时间延迟。默认值为
"False"
。此选项仅适用于 Glue 版本 2.0 及更高版本。 -
IdleTimeBetweenReadsInMs
– 数字(长型),至多为“无”。连续两次 getRecords 操作之间的最小延迟,以毫秒为单位指定。默认值为
1000
。此选项仅适用于 Glue 版本 2.0 及更高版本。 -
DescribeShardInterval
– 数字(长型),至多为“无”。脚本需要考虑重新分片的两次 ListShards API调用之间的最短时间间隔。默认值为
1s
。 -
NumRetries
– 数字(整数),至多为“无”。Kinesis Data API Streams 请求的最大重试次数。默认值为
3
。 -
RetryIntervalMs
– 数字(长型),至多为“无”。重试 Kinesis Data Streams 调用之前的冷却时间(以毫秒为单位指定)。API默认值为
1000
。 -
MaxRetryIntervalMs
– 数字(长型),至多为“无”。两次重试 Kinesis Data Streams 调用之间的最大冷却时间(以毫秒为单位指定)。API默认值为
10000
。 -
AvoidEmptyBatches
– 布尔值。在批处理开始之前检查 Kinesis 数据流中是否有未读数据,避免创建空白微批处理任务。默认值为
"False"
。 -
StreamArn
— UTF -8 字符串,匹配. Custom string pattern #43Kinesis 数据ARN流的亚马逊资源名称 ()。
-
RoleArn
— UTF -8 字符串,匹配. Custom string pattern #43要使用AWS安全令牌服务 (ARN) 代入的角色的 Amazon 资源名称 (AWSSTS)。此角色必须拥有针对 Kinesis 数据流执行描述或读取记录操作的权限。在访问其他账户中的数据流时,必须使用此参数。与
"awsSTSSessionName"
结合使用。 -
RoleSessionName
— UTF -8 字符串,匹配. Custom string pattern #43使用扮演角色的会话的标识符AWSSTS。在访问其他账户中的数据流时,必须使用此参数。与
"awsSTSRoleARN"
结合使用。 -
AddRecordTimestamp
— UTF -8 字符串,匹配. Custom string pattern #43当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示数据流收到相应记录的时间。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
EmitConsumerLagMetrics
— UTF -8 字符串,匹配. Custom string pattern #43当此选项设置为 “true” 时,对于每个批次,它将发出从直播收到的最旧记录到其到达时间之间的持续时间内的 AWS Glue 指标。 CloudWatch该指标的名字是 “glue.driver.streaming”。 maxConsumerLagInMs”。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
StartingTimestamp
— UTF -8 字符串。Kinesis 数据流中开始读取数据的记录的时间戳。可能的值是模式UTC格式的时间戳字符串
yyyy-mm-ddTHH:MM:SSZ
(其中 Z 表示带有 +/-UTC 的时区偏移量。 例如:“2023-04-04T 08:00:00 + 08:00”)。
CatalogKafkaSource 结构
指定数据目录中的一个 Apache Kafka 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
WindowSize
– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema
– 布尔值。是否从传入的数据中自动确定架构。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
StreamingOptions
– 一个 KafkaStreamingSourceOptions 对象。指定串流选项。
-
DataPreviewOptions
– 一个 StreamingDataPreviewOptions 对象。指定与用于查看数据样本的数据预览相关的选项。
DirectKafkaSource 结构
指定一个 Apache Kafka 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
StreamingOptions
– 一个 KafkaStreamingSourceOptions 对象。指定串流选项。
-
WindowSize
– 数字(整数),至多为“无”。处理每个微批处理所花费的时间量。
-
DetectSchema
– 布尔值。是否从传入的数据中自动确定架构。
-
DataPreviewOptions
– 一个 StreamingDataPreviewOptions 对象。指定与用于查看数据样本的数据预览相关的选项。
KafkaStreamingSourceOptions 结构
用于串流的其他选项。
字段
-
BootstrapServers
— UTF -8 字符串,匹配. Custom string pattern #43引导服务器列表URLs,例如,as。
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
此选项必须在API调用中指定或在数据目录的表元数据中定义。 -
SecurityProtocol
— UTF -8 字符串,匹配. Custom string pattern #43用于与代理通信的协议。可能的值为
"SSL"
或"PLAINTEXT"
。 -
ConnectionName
— UTF -8 字符串,匹配. Custom string pattern #43连接的名称。
-
TopicName
— UTF -8 字符串,匹配. Custom string pattern #43Apache Kafka 中指定的主题名称。您必须指定
"topicName"
、"assign"
或"subscribePattern"
中的至少一个。 -
Assign
— UTF -8 字符串,匹配. Custom string pattern #43要使用的特定
TopicPartitions
。您必须指定"topicName"
、"assign"
或"subscribePattern"
中的至少一个。 -
SubscribePattern
— UTF -8 字符串,匹配. Custom string pattern #43标识要订阅的主题列表的 Java 正则表达式字符串。您必须指定
"topicName"
、"assign"
或"subscribePattern"
中的至少一个。 -
Classification
— UTF -8 字符串,匹配. Custom string pattern #43一个可选分类。
-
Delimiter
— UTF -8 字符串,匹配. Custom string pattern #43指定分隔符。
-
StartingOffsets
— UTF -8 字符串,匹配. Custom string pattern #43Kafka 主题中读取数据的起始位置。可能的值为
"earliest"
或"latest"
。默认值为"latest"
。 -
EndingOffsets
— UTF -8 字符串,匹配. Custom string pattern #43批处理查询结束时的终点。可能的值是
"latest"
或为每个值指定结束偏移量的JSON字符串TopicPartition
。 -
PollTimeoutMs
– 数字(长型),至多为“无”。Spark 任务执行程序中,从 Kafka 轮询数据的超时时间(以毫秒为单位)。默认值为
512
。 -
NumRetries
– 数字(整数),至多为“无”。获取 Kafka 偏移失败前的重试次数。默认值为
3
。 -
RetryIntervalMs
– 数字(长型),至多为“无”。重试获取 Kafka 偏移前的等待时间(以毫秒为单位)。默认值为
10
。 -
MaxOffsetsPerTrigger
– 数字(长型),至多为“无”。每个触发间隔处理的最大偏移数的速率限制。指定的总偏移数跨不同卷的
topicPartitions
按比例分割。默认值为 null,这意味着使用者读取所有偏移,直到已知的最新偏移。 -
MinPartitions
– 数字(整数),至多为“无”。从 Kafka 读取数据的所需最小分区数。默认值为 null,这意味着 Spark 分区数等于 Kafka 分区数。
-
IncludeHeaders
– 布尔值。是否包含 Kafka 标头。当选项设置为“true”时,数据输出将包含一个名为“glue_streaming_kafka_headers”的附加列,类型为
Array[Struct(key: String, value: String)]
。默认值为“false”。此选项仅在 3.0 或更高 AWS Glue 版本中可用。 -
AddRecordTimestamp
— UTF -8 字符串,匹配. Custom string pattern #43当选项设置为 'true' 时,数据输出将包含一个名为 "__src_timestamp" 的附加列,表示主题收到相应记录的时间。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
EmitConsumerLagMetrics
— UTF -8 字符串,匹配. Custom string pattern #43当此选项设置为 “true” 时,对于每个批次,它将发出从主题收到的最旧记录到该记录到达的时间之间的持续时间内的 AWS Glue 指标。 CloudWatch该指标的名字是 “glue.driver.streaming”。 maxConsumerLagInMs”。默认值为‘false’。4.0 或更高 AWS Glue 版本支持此选项。
-
StartingTimestamp
— UTF -8 字符串。Kafka 主题中开始读取数据的记录时间戳。可能的值是模式UTC格式的时间戳字符串
yyyy-mm-ddTHH:MM:SSZ
(其中 Z 表示带有 +/-UTC 的时区偏移量。 例如:“2023-04-04T 08:00:00 + 08:00”)。只能设置一个
StartingTimestamp
或StartingOffsets
。
RedshiftSource 结构
指定一个 Amazon Redshift 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Amazon Redshift 数据存储的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库表。
-
RedshiftTmpDir
— UTF -8 字符串,匹配. Custom string pattern #43从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
TmpDirIAMRole
— UTF -8 字符串,匹配. Custom string pattern #43具有权限的IAM角色。
AmazonRedshiftSource 结构
指定 Amazon Redshift 来源。
字段
-
Name
— UTF -8 字符串,匹配. Custom string pattern #45Amazon Redshift 来源的名称。
-
Data
– 一个 AmazonRedshiftNodeData 对象。指定 Amazon Redshift 源节点的数据。
AmazonRedshiftNodeData 结构
指定一个 Amazon Redshift 节点。
字段
-
AccessType
— UTF -8 字符串,匹配. Custom string pattern #42Redshift 连接的访问类型。可以是直接连接或目录连接。
-
SourceType
— UTF -8 字符串,匹配. Custom string pattern #42用于指定特定表是源查询还是自定义查询的源类型。
-
Connection
– 一个 选项 对象。与 Redshift 集群的 AWS Glue 连接。
-
Schema
– 一个 选项 对象。使用直接连接时的 Redshift 架构名称。
-
Table
– 一个 选项 对象。使用直接连接时的 Redshift 表名称。
-
CatalogDatabase
– 一个 选项 对象。使用 AWS Glue 数据目录时数据目录数据库的名称。
-
CatalogTable
– 一个 选项 对象。使用 AWS Glue 数据目录时的数据目录表名。
-
CatalogRedshiftSchema
— UTF -8 字符串。使用数据目录时的 Redshift 架构名称。
-
CatalogRedshiftTable
— UTF -8 字符串。要从中进行读取的数据库表。
-
TempDir
— UTF -8 字符串,匹配. Custom string pattern #43从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
IamRole
– 一个 选项 对象。可选。连接到 S3 时使用的角色名称。如果留空,该IAM角色将默认为工作中的角色。
-
AdvancedOptions
– AmazonRedshiftAdvancedOption 对象的数组。连接到 Redshift 集群时为可选值。
-
SampleQuery
— UTF -8 字符串。SQL用于在 “查询” 时从 Redshift 源中 SourceType获取数据。
-
PreAction
— UTF -8 字符串。在运行APPEND带有 upsert 的MERGE或之前SQL使用的。
-
PostAction
— UTF -8 字符串。在运行APPEND带有 upsert 的MERGE或之前SQL使用的。
-
Action
— UTF -8 字符串。指定写入 Redshift 集群的操作方式。
-
TablePrefix
— UTF -8 字符串,匹配. Custom string pattern #42指定表的前缀。
-
Upsert
– 布尔值。执行操作时,Redshift 上使用的操作会消失。APPEND
-
MergeAction
— UTF -8 字符串,匹配. Custom string pattern #42何时使用的操作,用于确定如何处理 Redshift 接收器。MERGE
-
MergeWhenMatched
— UTF -8 字符串,匹配. Custom string pattern #42当现有记录与新记录匹配时,该操作用于确定如何处理 Redshift 接收器MERGE中的一个。
-
MergeWhenNotMatched
— UTF -8 字符串,匹配. Custom string pattern #42当现有记录与新记录不匹配时,该操作用于确定如何处理 Redshift 接收器MERGE中的一个。
-
MergeClause
— UTF -8 字符串。在自定义合并中SQL用于处理匹配记录的。
-
CrawlerConnection
— UTF -8 字符串。指定与所用目录表关联的连接的名称。
-
TableSchema
– 选项 对象的数组。给定节点的架构输出数组。
-
StagingTable
— UTF -8 字符串。在 upsert 中执行MERGE或操作时使用的临时暂存表APPEND的名称。
-
SelectedColumns
– 选项 对象的数组。在执行MERGE或APPEND使用 upsert 时用于确定匹配记录的列名列表。
AmazonRedshiftAdvancedOption 结构
连接到 Redshift 集群时指定可选值。
字段
-
Key
— UTF -8 字符串。其他连接选项的键。
-
Value
— UTF -8 字符串。其他连接选项的值。
选项结构
指定选项值。
字段
-
Value
— UTF -8 字符串,匹配. Custom string pattern #43指定选项的值。
-
Label
— UTF -8 字符串,匹配. Custom string pattern #43指定选项的标签。
-
Description
— UTF -8 字符串,匹配. Custom string pattern #43指定选项的描述。
S3 CatalogSource 结构
在数据目录中指定 Amazon S3 AWS Glue 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库表。
-
PartitionPredicate
— UTF -8 字符串,匹配. Custom string pattern #43满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为
""
– 默认情况下为空。 -
AdditionalOptions
– 一个 S3 SourceAdditionalOptions 对象。指定其他连接选项。
S3 SourceAdditionalOptions 结构
为 Amazon S3 数据存储指定其他连接选项。
字段
-
BoundedSize
– 数字(长型)。设置要处理的数据集的目标大小的上限(以字节为单位)。
-
BoundedFiles
– 数字(长型)。设置要处理的文件的目标数量的上限。
S3 CsvSource 结构
指定存储在 Amazon S3 中的命令分隔值 (CSV) 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Paths
— 必需:UTF-8 个字符串的数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType
— UTF -8 字符串(有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
Exclusions
— 由 UTF -8 个字符串组成的数组。一个包含要排除的 Unix 风格的全局模式JSON列表的字符串。例如,“[\" **.pdf\ "]” 排除所有PDF文件。
-
GroupSize
— UTF -8 字符串,匹配. Custom string pattern #43目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"
必须设置为"inPartition"
,此选项才能生效。 -
GroupFiles
— UTF -8 字符串,匹配. Custom string pattern #43当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。要启用对少于 50,000 个文件的分组,请将此参数设置为 “inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"
。 -
Recurse
– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand
– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了考虑 Amazon S3 的最终一致性,修改时间戳在最后 maxBand 几毫秒 JobBookmarks以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand
– 数字(整数),至多为“无”。此选项指定最后 maxBand 几秒钟内要保存的最大文件数。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions
– 一个 S3 DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
Separator
— 必填:UTF-8 字符串(有效值:comma="COMMA"
|ctrla="CTRLA"
| |pipe="PIPE"
semicolon="SEMICOLON"
|tab="TAB"
)。指定分隔符。默认值为逗号:“,”,但也可以指定任何其他字符。
-
Escaper
— UTF -8 字符串,匹配. Custom string pattern #43指定要用于转义的字符。此选项仅在读取CSV文件时使用。默认值为
none
。如果启用,则按原样使用紧跟其后的字符,一小组已知的转义符(\n
、\r
、\t
和\0
)除外。 -
QuoteChar
— 必填:UTF-8 字符串(有效值:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
)。指定要用于引用的字符。默认值为双引号:
'"'
。将这设置为-1
可完全关闭引用。 -
Multiline
– 布尔值。指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为
False
,它允许在分析过程中更积极地拆分文件。 -
WithHeader
– 布尔值。指定是否将第一行视为标题的布尔值。默认值为
False
。 -
WriteHeader
– 布尔值。指定是否将标题写入输出的布尔值。默认值为
True
。 -
SkipFirst
– 布尔值。指定是否跳过第一个数据行的布尔值。默认值为
False
。 -
OptimizePerformance
– 布尔值。一个布尔值,它指定是否使用高级SIMDCSV读取器以及基于 Apache Arrow 的列式内存格式。仅在 3.0 AWS Glue 版本中可用。
-
OutputSchemas
– GlueSchema 对象的数组。指定 S3 CSV 源的数据架构。
D irectJDBCSource 结构
指定直接JDBC源连接。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45JDBC源连接的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43JDBC源连接的数据库。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43JDBC源连接表。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43JDBC源的连接名称。
-
ConnectionType
— 必填:UTF-8 字符串(有效值:sqlserver
|mysql
| |oracle
postgresql
|redshift
)。JDBC源的连接类型。
-
RedshiftTmpDir
— UTF -8 字符串,匹配. Custom string pattern #43Redshi JDBC ft 源代码的临时目录。
S3 DirectSourceAdditionalOptions 结构
为 Amazon S3 数据存储指定其他连接选项。
字段
-
BoundedSize
– 数字(长型)。设置要处理的数据集的目标大小的上限(以字节为单位)。
-
BoundedFiles
– 数字(长型)。设置要处理的文件的目标数量的上限。
-
EnableSamplePath
– 布尔值。设置选项以启用示例路径。
-
SamplePath
— UTF -8 字符串,匹配. Custom string pattern #43如果启用,请指定示例路径。
S3 JsonSource 结构
指定存储在 Amazon S3 中的JSON数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Paths
— 必需:UTF-8 个字符串的数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType
— UTF -8 字符串(有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
Exclusions
— 由 UTF -8 个字符串组成的数组。一个包含要排除的 Unix 风格的全局模式JSON列表的字符串。例如,“[\" **.pdf\ "]” 排除所有PDF文件。
-
GroupSize
— UTF -8 字符串,匹配. Custom string pattern #43目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"
必须设置为"inPartition"
,此选项才能生效。 -
GroupFiles
— UTF -8 字符串,匹配. Custom string pattern #43当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。要启用对少于 50,000 个文件的分组,请将此参数设置为 “inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"
。 -
Recurse
– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand
– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了考虑 Amazon S3 的最终一致性,修改时间戳在最后 maxBand 几毫秒 JobBookmarks以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand
– 数字(整数),至多为“无”。此选项指定最后 maxBand 几秒钟内要保存的最大文件数。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions
– 一个 S3 DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
JsonPath
— UTF -8 字符串,匹配. Custom string pattern #43定义JSON数据的 JsonPath 字符串。
-
Multiline
– 布尔值。指定单个记录能否跨越多行的布尔值。当字段包含带引号的换行符时,会出现此选项。如果有任何记录跨越多行,则您必须将此选项设置为 True(真)。默认值为
False
,它允许在分析过程中更积极地拆分文件。 -
OutputSchemas
– GlueSchema 对象的数组。指定 S3 JSON 源的数据架构。
S3 ParquetSource 结构
指定一个存储在 Amazon S3 中的 Apache Parquet 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Paths
— 必需:UTF-8 个字符串的数组。要从中进行读取的 Amazon S3 路径的列表。
-
CompressionType
— UTF -8 字符串(有效值:snappy="SNAPPY"
|lzo="LZO"
| |gzip="GZIP"
uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
Exclusions
— 由 UTF -8 个字符串组成的数组。一个包含要排除的 Unix 风格的全局模式JSON列表的字符串。例如,“[\" **.pdf\ "]” 排除所有PDF文件。
-
GroupSize
— UTF -8 字符串,匹配. Custom string pattern #43目标组大小(以字节为单位)。默认值根据输入数据大小和群集大小进行计算。当少于 50,000 个输入文件时,
"groupFiles"
必须设置为"inPartition"
,此选项才能生效。 -
GroupFiles
— UTF -8 字符串,匹配. Custom string pattern #43当输入包含超过 50,000 个文件时,预设情况下将启用文件分组。要启用对少于 50,000 个文件的分组,请将此参数设置为 “inPartition”。当超过 50,000 个文件时,若要禁用分组,请将此参数设置为
"none"
。 -
Recurse
– 布尔值。如果设置为 true(真),则以递归方式读取指定路径下的所有子目录中的文件。
-
MaxBand
– 数字(整数),至多为“无”。此选项控制 s3 列表可能保持一致的持续时间(以毫秒为单位)。为了考虑 Amazon S3 的最终一致性,修改时间戳在最后 maxBand 几毫秒 JobBookmarks以内的文件会被特别跟踪。大多数用户不需要设置此选项。默认值为 900000 毫秒或 15 分钟。
-
MaxFilesInBand
– 数字(整数),至多为“无”。此选项指定最后 maxBand 几秒钟内要保存的最大文件数。如果超过此值,额外的文件将会跳过,且只能在下一次作业运行中处理。
-
AdditionalOptions
– 一个 S3 DirectSourceAdditionalOptions 对象。指定其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 S3 Parquet 源的数据架构。
S3 DeltaSource 结构
指定存储在中的三角洲湖数据源 Amazon S3。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Delta Lake 源的名称。
-
Paths
— 必需:UTF-8 个字符串的数组。要从中进行读取的 Amazon S3 路径的列表。
-
AdditionalDeltaOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
AdditionalOptions
– 一个 S3 DirectSourceAdditionalOptions 对象。为连接器指定其他选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
S3 CatalogDeltaSource 结构
指定在数据目录中注册的 Delta Lake AWS Glue 数据源。数据源必须存储在 Amazon S3。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Delta Lake 数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
AdditionalDeltaOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
CatalogDeltaSource 结构
指定在数据目录中注册的 Delta Lake AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Delta Lake 数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
AdditionalDeltaOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Delta Lake 源的数据架构。
S3 HudiSource 结构
指定存储在中的 Amazon S3 Hudi 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Hudi 源的名称。
-
Paths
— 必需:UTF-8 个字符串的数组。要从中进行读取的 Amazon S3 路径的列表。
-
AdditionalHudiOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
AdditionalOptions
– 一个 S3 DirectSourceAdditionalOptions 对象。为连接器指定其他选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
S3 CatalogHudiSource 结构
指定在数据目录中注册的 Hudi AWS Glue 数据源。Hudi 数据源必须存储在。 Amazon S3
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据来源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
AdditionalHudiOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
CatalogHudiSource 结构
指定在数据目录中注册的 Hudi AWS Glue 数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据来源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
-
AdditionalHudiOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Hudi 源的数据架构。
D ynamoDBCatalog 源结构
在数据目录中指定 DynamoDB 数据源。 AWS Glue
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
RelationalCatalogSource 结构
指定 AWS Glue 数据目录中的一个关系数据库数据源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据源的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库中的表的名称。
JDBCConnectorTarget结构
指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43与连接器关联的连接的名称。
-
ConnectionTable
— 必填:UTF-8 字符串,匹配. Custom string pattern #43数据目标中表的名称。
-
ConnectorName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43将使用的连接器的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43连接类型,例如 marketplace.jdbc 或 custom.jdbc,用于指定与数据目标的连接。JDBC
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
用于连接器的其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。为JDBC目标指定数据架构。
SparkConnectorTarget 结构
指定一个使用 Apache Spark 连接器的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
ConnectionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43Apache Spark 连接器的连接名称。
-
ConnectorName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43Apache Spark 连接器的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定指向 Apache Spark 数据存储的连接的连接类型,如 marketplace.spark 或 custom.spark。
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
用于连接器的其他连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定自定义 Spark 目标的数据架构。
BasicCatalogTarget 结构
指定使用 AWS Glue 数据目录表的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。用于根据特定密钥或一组密钥在多个分区或分片之间分配数据的分区键。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43包含您要用作目标的表的数据库。此数据库必须已存在于数据目录中。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43定义输出数据架构的表。此表必须已存在于数据目录中。
M ySQLCatalog 目标结构
指定使用 My 的目标SQL。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
P ostgreSQLCatalog 目标结构
指定一个使用 Postg SQL res 的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
O racleSQLCatalog 目标结构
指定使用 Oracle 的目标SQL。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
M icrosoftSQLServer CatalogTarget 结构
指定使用微软的目标SQL。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
RedshiftTarget 结构
指定一个使用 Amazon Redshift 的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
-
RedshiftTmpDir
— UTF -8 字符串,匹配. Custom string pattern #43从数据库中复制时,可以用于暂存临时数据的 Amazon S3 路径。
-
TmpDirIAMRole
— UTF -8 字符串,匹配. Custom string pattern #43具有权限的IAM角色。
-
UpsertRedshiftOptions
– 一个 UpsertRedshiftTargetOptions 对象。写入 Redshift 目标时用于配置 upsert 操作的一组选项。
AmazonRedshiftTarget 结构
指定一个 Amazon Redshift 目标。
字段
-
Name
— UTF -8 字符串,匹配. Custom string pattern #45Amazon Redshift 目标的名称。
-
Data
– 一个 AmazonRedshiftNodeData 对象。指定 Amazon Redshift 目标节点的数据。
-
Inputs
— 由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
UpsertRedshiftTargetOptions 结构
写入 Redshift 目标时用于配置 upsert 操作的选项。
字段
-
TableLocation
— UTF -8 字符串,匹配. Custom string pattern #43Redshift 表的物理位置。
-
ConnectionName
— UTF -8 字符串,匹配. Custom string pattern #43用于写入 Redshift 的连接的名称。
-
UpsertKeys
— 由 UTF -8 个字符串组成的数组。用于确定是执行更新还是插入的键。
S3 CatalogTarget 结构
指定使用数据目录写入 Amazon S3 AWS Glue 的数据目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
SchemaChangePolicy
– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
S3 GlueParquetTarget 结构
指定一个在 Apache Paric 列式存储中写入 Amazon S3 的数据目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的单个 Amazon S3 路径。
-
Compression
— UTF -8 字符串(有效值:snappy="SNAPPY"
|lzo="LZO"
| |gzip="GZIP"
uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
SchemaChangePolicy
– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
CatalogSchemaChangePolicy 结构
一项指定爬网程序的更新行为的策略。
字段
-
EnableUpdateCatalog
– 布尔值。当爬网程序发现已更改的架构时,是否使用指定的更新行为。
-
UpdateBehavior
— UTF -8 字符串(有效值:UPDATE_IN_DATABASE
|LOG
)。爬网程序发现已更改的架构时的更新行为。
S3 DirectTarget 结构
指定一个写入 Amazon S3 的数据目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的单个 Amazon S3 路径。
-
Compression
— UTF -8 字符串,匹配. Custom string pattern #43指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
Format
— 必填:UTF-8 字符串(有效值:json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
)。指定目标的数据输出格式。
-
SchemaChangePolicy
– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
S3 HudiCatalogTarget 结构
指定写入数据目录中的 Hudi 数据源的目标。 AWS Glue
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
AdditionalOptions
– 必填:键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定用于连接器的其他连接选项。
-
SchemaChangePolicy
– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
S3 HudiDirectTarget 结构
指定写入中 Hudi 数据源的目标。 Amazon S3
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的 Hudi 数据来源的Amazon S3 路径。
-
Compression
— 必填:UTF-8 字符串(有效值:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Format
— 必填:UTF-8 字符串(有效值:json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
)。指定目标的数据输出格式。
-
AdditionalOptions
– 必填:键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定用于连接器的其他连接选项。
-
SchemaChangePolicy
– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
S3 DeltaCatalogTarget 结构
指定写入数据目录中的 Delta Lake AWS Glue 数据源的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定用于连接器的其他连接选项。
-
SchemaChangePolicy
– 一个 CatalogSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
S3 DeltaDirectTarget 结构
指定写入中三角洲湖数据源的目标 Amazon S3。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的 Delta Lake 数据来源的 Amazon S3 路径。
-
Compression
— 必填:UTF-8 字符串(有效值:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定数据压缩方式。通常,如果数据有标准文件扩展名,则不需要指定。可能的值为
"gzip"
和"bzip"
。 -
Format
— 必填:UTF-8 字符串(有效值:json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
)。指定目标的数据输出格式。
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定用于连接器的其他连接选项。
-
SchemaChangePolicy
– 一个 DirectSchemaChangePolicy 对象。一项指定爬网程序的更新行为的策略。
DirectSchemaChangePolicy 结构
一项指定爬网程序的更新行为的策略。
字段
-
EnableUpdateCatalog
– 布尔值。当爬网程序发现已更改的架构时,是否使用指定的更新行为。
-
UpdateBehavior
— UTF -8 字符串(有效值:UPDATE_IN_DATABASE
|LOG
)。爬网程序发现已更改的架构时的更新行为。
-
Table
— UTF -8 字符串,匹配. Custom string pattern #43指定应用架构更改策略的数据库中的表。
-
Database
— UTF -8 字符串,匹配. Custom string pattern #43指定应用架构更改策略的数据库。
ApplyMapping 结构
指定一个将数据源中的数据属性键映射到数据目标中的数据属性键的转换。您可以重命名键、修改键的数据类型以及选择要从数据集中删除的键。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Mapping
– 必填:Mapping 对象的数组。指定数据源中的数据属性键与数据目标中的数据属性键的映射。
Mapping 结构
指定数据属性键的映射。
字段
-
ToKey
— UTF -8 字符串,匹配. Custom string pattern #43应用映射之后,列的名称应该是什么。可与
FromPath
相同。 -
FromPath
— 由 UTF -8 个字符串组成的数组。要修改的表或列。
-
FromType
— UTF -8 字符串,匹配. Custom string pattern #43要修改的数据的类型。
-
ToType
— UTF -8 字符串,匹配. Custom string pattern #43要修改的数据的数据类型。
-
Dropped
– 布尔值。如果为 true(真),则删除列。
-
Children
– Mapping 对象的数组。仅适用于嵌套数据结构。如果要更改父结构,但也要更改其子结构之一,则可填写此数据结构。它也是
Mapping
,但其FromPath
将是父结构的FromPath
再加上来自此结构的FromPath
。对于子部分,假设您拥有结构:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
您可以指定一个类似如下的
Mapping
:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 结构
指定一个选择要保留的数据属性键的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Paths
— 必需:UTF-8 个字符串的数组。数据结构中变量的JSON路径。
DropFields 结构
指定一个选择要删除的数据属性键的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Paths
— 必需:UTF-8 个字符串的数组。数据结构中变量的JSON路径。
RenameField 结构
指定一个重命名单个数据属性键的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
SourcePath
— 必需:UTF-8 个字符串的数组。源数据结构中变量的JSON路径。
-
TargetPath
— 必需:UTF-8 个字符串的数组。目标数据的数据结构中变量的JSON路径。
Spigot 结构
指定一个将数据样本写入 Amazon S3 存储桶的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43Amazon S3 中的一个路径,在该路径中,转换会将数据集中的一部分记录写入 Amazon S3 存储桶中的JSON文件。
-
Topk
– 数字(整型),不超过 100。指定从数据集开头开始写入的一些记录。
-
Prob
– 数字(双精度),不超过 1。选择任何给定记录的概率(最大值为 1 的十进制值)。值 1 表示从数据集中读取的每一行都应包括在示例输出中。
Join 结构
指定一个转换,它将使用指定数据属性键上的比较短语将两个数据集联接到一个数据集。您可以使用内部、外部、左、右、左半和左反联接。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 2 个或多于 2 个字符串。通过其节点名称标识的数据输入。
-
JoinType
— 必填:UTF-8 字符串(有效值:equijoin="EQUIJOIN"
left="LEFT"
| |right="RIGHT"
|outer="OUTER"
leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
)。指定要针对数据集执行的联接的类型。
-
Columns
– 必填:JoinColumn 对象的数组,不少于 2 个或不超过 2 个结构。要联接的两列的列表。
JoinColumn 结构
指定一个要联接的列。
字段
-
From
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要联接的列。
-
Keys
— 必需:UTF-8 个字符串的数组。要联接的列的键。
SplitFields 结构
指定一个将数据属性键拆分为两个 DynamicFrames
的转换。输出是 DynamicFrames
的集合:一个包含选定的数据属性键,另一个包含剩余的数据属性键。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Paths
— 必需:UTF-8 个字符串的数组。数据结构中变量的JSON路径。
SelectFromCollection 结构
指定一个从 DynamicFrames
的集合中选择一个 DynamicFrame
的转换。输出是选定的 DynamicFrame
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Index
– 必填:数字(整数),至多为“无”。DynamicFrame 要选择的索引。
FillMissingValues 结构
指定一个转换,它将查找数据集中缺少值的记录,并添加包含通过推算确定的值的新字段。输入数据集用于训练机器学习模型,该模型确定缺失值应该是什么。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
ImputedPath
— 必填:UTF-8 字符串,匹配. Custom string pattern #43归因数据集的数据结构中变量的JSON路径。
-
FilledPath
— UTF -8 字符串,匹配. Custom string pattern #43已填充数据集的数据结构中变量的JSON路径。
Filter 结构
指定一个转换,它将基于筛选条件将一个数据集拆分为两个。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
LogicalOperator
— 必填:UTF-8 字符串(有效值:AND
|OR
)。用于通过将键值与指定值进行比较来筛选行的运算符。
-
Filters
– 必填:FilterExpression 对象的数组。指定一个筛选条件表达式。
FilterExpression 结构
指定一个筛选条件表达式。
字段
-
Operation
— 必填:UTF-8 字符串(有效值:EQ
LT
|GT
| |LTE
|GTE
REGEX
|ISNULL
)。要在该表达式中执行的操作的类型。
-
Negated
– 布尔值。是否要否定该表达式。
-
Values
– 必填:FilterValue 对象的数组。筛选条件值的列表。
FilterValue 结构
表示 FilterExpression
的值的列表中的单个条目。
字段
-
Type
— 必填:UTF-8 字符串(有效值:COLUMNEXTRACTED
|CONSTANT
)。筛选条件值的类型。
-
Value
— 必需:UTF-8 个字符串的数组。要关联的值。
CustomCode 结构
指定一个转换,它将使用您提供的自定义代码执行数据转换。输出是一个集合 DynamicFrames。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:一个由 UTF -8 个字符串组成的数组,至少 1 个字符串。通过其节点名称标识的数据输入。
-
Code
— 必填:UTF-8 字符串,匹配. Custom string pattern #36用于执行数据转换的自定义代码。
-
ClassName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43为自定义代码节点类定义的名称。
-
OutputSchemas
– GlueSchema 对象的数组。指定自定义代码转换的数据架构。
火花SQL结构
指定一种转换,您可以在其中使用 Spark SQL 语法输入SQL查询来转换数据。输出为单个 DynamicFrame
。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:一个由 UTF -8 个字符串组成的数组,至少 1 个字符串。通过其节点名称标识的数据输入。您可以将表名与要在SQL查询中使用的每个输入节点相关联。您选择的名称必须满足 Spark 的SQL命名限制。
-
SqlQuery
— 必填:UTF-8 字符串,匹配. Custom string pattern #44必须使用 Spark SQL 语法并返回单个数据集的SQL查询。
-
SqlAliases
– 必填:SqlAlias 对象的数组。别名列表。别名允许您为给定输入指定要在SQL中使用的名称。例如,您有一个名为 “” MyDataSource 的数据源。如果你指定
From
Alias
为 MyDataSource、as SqlName,那么在你的中SQL你可以这样做:select * from SqlName
然后从中获取数据 MyDataSource。
-
OutputSchemas
– GlueSchema 对象的数组。指定 Spark SQL 转换的数据架构。
SqlAlias 结构
表示 SqlAliases
的值的列表中的单个条目。
字段
-
From
— 必填:UTF-8 字符串,匹配. Custom string pattern #42表,或表中的列。
-
Alias
— 必填:UTF-8 字符串,匹配. Custom string pattern #43为表或表中的列提供的临时名称。
DropNullFields 结构
指定一个转换,如果列中的所有值均为“null”,则该转换将从数据集中删除这些列。默认情况下, AWS Glue Studio 会识别空对象,但是某些值(例如空字符串、“null” 字符串、-1 个整数或其他占位符(例如零)不会自动识别为空值。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
NullCheckBoxList
– 一个 NullCheckBoxList 对象。一种结构,它表示是否将某些值识别为要删除的 null 值。
-
NullTextList
– NullValueField 对象的数组,不超过 50 个结构。一种结构,它指定了一系列 NullValueField 结构,这些结构表示自定义空值,例如零或其他用作数据集独有的空占位符的值。
仅当 null 占位符的值和数据类型与数据匹配时,
DropNullFields
转换才会删除自定义 null 值。
NullCheckBoxList 结构
表示某些值是否被识别为要删除的 null 值。
字段
-
IsEmpty
– 布尔值。指定将一个空字符串视为 null 值。
-
IsNullString
– 布尔值。指定将一个拼写“null”一词的值视为 null 值。
-
IsNegOne
– 布尔值。指定将一个为 -1 的整数值视为 null 值。
NullValueField 结构
表示自定义 null 值,如零值或其他值,用作数据集唯一的 null 占位符。
字段
-
Value
— 必填:UTF-8 字符串,匹配. Custom string pattern #43null 占位符的值。
-
Datatype
– 必填:一个 DataType 对象。值的数据类型。
Datatype 结构
表示值的数据类型的结构。
字段
-
Id
— 必填:UTF-8 字符串,匹配. Custom string pattern #42值的数据类型。
-
Label
— 必填:UTF-8 字符串,匹配. Custom string pattern #42分配给 datatype(数据类型)的标签。
Merge 结构
指定一个转换,它将基于指定的主键将 DynamicFrame
与暂存 DynamicFrame
合并以标识记录。不会对重复记录(具有相同主键的记录)去除重复。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 2 个或多于 2 个字符串。通过其节点名称标识的数据输入。
-
Source
— 必填:UTF-8 字符串,匹配. Custom string pattern #42将与暂存
DynamicFrame
合并的源DynamicFrame
。 -
PrimaryKeys
— 必需:UTF-8 个字符串的数组。要匹配源和暂存动态帧中的记录的主键字段列表。
Union 结构
指定一个转换,它将两个或更多数据集中的行合并到单个结果中。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 2 个或多于 2 个字符串。节点 ID 输入到转换。
-
UnionType
— 必填:UTF-8 字符串(有效值:ALL
|DISTINCT
)。指示 Union 转换的类型。
指定
ALL
将数据源中的所有行联接到生成的行 DynamicFrame。生成的并集不会删除重复行。指定
DISTINCT
删除结果中的重复行 DynamicFrame。
PIIDetection结构
指定用于识别、移除或屏蔽PII数据的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。节点 ID 输入到转换。
-
PiiType
— 必填:UTF-8 字符串(有效值:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
)。表示PIIDetection变换的类型。
-
EntityTypesToDetect
— 必需:UTF-8 个字符串的数组。表示PIIDetection变换将标识为PII数据的实体类型。
PII类型实体包括:PERSON_ NAME、、_、_ DATE、USA _、_ SNN、USA _ EMAIL、_ ITIN、_、USA _ NUMBER、PASSPORT _、PHONE _ NUMBER、_、BANK _ ACCOUNT、_、_ ADDRESS、_、MAC _ ADDRESS、_、USA _ CODE、CPT _ _、USA _ HCPCS _ CODE、_ USA _、NATIONAL _ CODE、DRUG _、USA _、_ IDENTIFIER、MEDICARE BENEFICIARY _、_、USA _、HEALTH _ NUMBER、INSURANCE CLAIM _、_、CREDIT _ CARD、USA _NATIONAL_ PROVIDER _IDENTIFIER,USADEA_ _NUMBER,USADRIVING_ LICENSE
-
OutputColumnName
— UTF -8 字符串,匹配. Custom string pattern #43指示包含该行中检测到的任何实体类型的输出列名称。
-
SampleFraction
– 数字(双精度),不超过 1。表示扫描PII实体时要采样的数据比例。
-
ThresholdFraction
– 数字(双精度),不超过 1。表示为了将列标识为数据而必须满足PII的数据比例。
-
MaskValue
— UTF -8 个字符串,长度不超过 256 字节,与. Custom string pattern #40指示将替代检测到的实体的值。
Aggregate 结构
指定一个转换,用于按选定字段对行进行分组并通过指定函数计算聚合值。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。指定要用作聚合转换输入的字段和行。
-
Groups
— 必需:UTF-8 个字符串的数组。指定要对其进行分组的字段。
-
Aggs
:必填:AggregateOperation 对象的数组,不少于 1 个或不超过 30 个结构。指定要对指定字段执行的聚合函数。
DropDuplicates 结构
指定一个用于从数据集中删除重复数据行的转换。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45转换节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。通过其节点名称标识的数据输入。
-
Columns
— 由 UTF -8 个字符串组成的数组。重复时需要合并或删除的列的名称。
GovernedCatalogTarget 结构
指定使用数据目录写入 Amazon S3 AWS Glue 的数据目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据目标的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
-
PartitionKeys
— 由 UTF -8 个字符串组成的数组。使用一系列键指定本机分区。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要写入的数据库中的表的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要向其写入的数据库的名称。
-
SchemaChangePolicy
– 一个 CatalogSchemaChangePolicy 对象。用于指定监管目录的更新行为的策略。
GovernedCatalogSource 结构
在受管控的数据目录中指定 AWS Glue 数据存储。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据存储的名称。
-
Database
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库。
-
Table
— 必填:UTF-8 字符串,匹配. Custom string pattern #43要从中进行读取的数据库表。
-
PartitionPredicate
— UTF -8 字符串,匹配. Custom string pattern #43满足此谓词的分区将被删除。这些分区中保留期内的文件不会被删除。设置为
""
– 默认情况下为空。 -
AdditionalOptions
– 一个 S3 SourceAdditionalOptions 对象。指定其他连接选项。
AggregateOperation 结构
指定在聚合转换中执行聚合所需的一组参数。
字段
-
Column
— 必需:UTF-8 个字符串的数组。指定数据集上将应用聚合函数的列。
-
AggFunc
— 必填:UTF-8 字符串(有效值:avg
| | | | |countDistinct
|count
|first
| |last
|kurtosis
| |max
|min
| |skewness
|stddev_samp
| |stddev_pop
|sum
| |sumDistinct
|var_samp
|var_pop
)。指定要应用的聚合函数。
可能的聚合函数包括:avg countDistinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、、var_samp、var_pop sumDistinct
GlueSchema 结构
在无法确定架构时,指定一个用户定义的架构 AWS Glue。
字段
-
Columns
– GlueStudioSchemaColumn 对象的数组。指定构成 AWS Glue 架构的列定义。
GlueStudioSchemaColumn 结构
在 AWS Glue 架构定义中指定单个列。
字段
-
Name
— 必填:UTF-8 个字符串,长度不超过 1024 字节,匹配. Single-line string patternAWS Glue Studio 架构中该列的名称。
-
Type
— UTF -8 个字符串,长度不超过 131072 字节,与. Single-line string patternAWS Glue Studio 架构中此列的配置单元类型。
GlueStudioColumn 结构
在 AWS Glue Studio 中指定单列。
字段
-
Key
— 必填:UTF-8 字符串,匹配. Custom string pattern #43AWS Glue Studio 中专栏的关键。
-
FullPath
— 必需:UTF-8 个字符串的数组。TThe AWS Glue Studio 里满URL是专栏。
-
Type
— 必填:UTF-8 字符串(有效值:array="ARRAY"
| | | | | | | | | | |bigint="BIGINT"
| |bigint array="BIGINT_ARRAY"
| |binary="BINARY"
| | |binary array="BINARY_ARRAY"
| |boolean="BOOLEAN"
| |boolean array="BOOLEAN_ARRAY"
| |byte="BYTE"
| |byte array="BYTE_ARRAY"
| |char="CHAR"
| |char array="CHAR_ARRAY"
| |choice="CHOICE"
| |choice array="CHOICE_ARRAY"
| |date="DATE"
| |date array="DATE_ARRAY"
| |decimal="DECIMAL"
| |decimal array="DECIMAL_ARRAY"
| | |double="DOUBLE"
| |double array="DOUBLE_ARRAY"
| |enum="ENUM"
| |enum array="ENUM_ARRAY"
| |float="FLOAT"
| |float array="FLOAT_ARRAY"
| |int="INT"
| |int array="INT_ARRAY"
| |interval="INTERVAL"
| |interval array="INTERVAL_ARRAY"
| |long="LONG"
| |long array="LONG_ARRAY"
| |object="OBJECT"
| |short="SHORT"
| |short array="SHORT_ARRAY"
smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
|string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
|null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
)。TThe AWS Glue Studio 中专栏的类型。
-
Children
– 结构数组。TThe AWS Glue Studio 中父列的子项。
DynamicTransform 结构
指定执行动态转换所需的一组参数。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定动态转换的名称。
-
TransformName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定动态变换在 AWS Glue Studio 可视化编辑器中显示的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。指定所需的动态转换输入。
-
Parameters
– TransformConfigParameter 对象的数组。指定动态转换的参数。
-
FunctionName
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定动态转换的函数名称。
-
Path
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定动态转换源和配置文件的路径。
-
Version
— UTF -8 字符串,匹配. Custom string pattern #43此字段未使用,将在未来版本中弃用。
-
OutputSchemas
– GlueSchema 对象的数组。指定动态转换的数据架构。
TransformConfigParameter 结构
指定动态转换的配置文件的参数。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #43指定动态转换的配置文件的参数名称。
-
Type
— 必填:UTF-8 字符串(有效值:str="STR"
int="INT"
|float="FLOAT"
| |complex="COMPLEX"
|bool="BOOL"
list="LIST"
|null="NULL"
)。指定动态转换的配置文件中的参数类型。
-
ValidationRule
— UTF -8 字符串,匹配. Custom string pattern #43指定动态转换的配置文件的验证规则。
-
ValidationMessage
— UTF -8 字符串,匹配. Custom string pattern #43指定动态转换的配置文件的验证消息。
-
Value
— 由 UTF -8 个字符串组成的数组。指定动态转换的配置文件的参数值。
-
ListType
— UTF -8 字符串(有效值:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
list="LIST"
|null="NULL"
)。指定动态转换的配置文件的参数列表类型。
-
IsOptional
– 布尔值。指定该参数在动态转换的配置文件中是否可选。
EvaluateDataQuality 结构
指定您的数据质量评估标准。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据质量评估的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。您的数据质量评估的输入。
-
Ruleset
— 必填:UTF-8 个字符串,长度不小于 1 或超过 65536 字节,匹配。Custom string pattern #41数据质量评估的规则集。
-
Output
— UTF -8 字符串(有效值:PrimaryInput
|EvaluationResults
)。您的数据质量评估的输出。
-
PublishingOptions
– 一个 DQResultsPublishingOptions 对象。用于配置结果发布方式的选项。
-
StopJobOnFailureOptions
– 一个 DQStopJobOnFailureOptions 对象。用于配置在数据质量评估失败时如何停止作业的选项。
DQResultsPublishingOptions结构
用于配置数据质量评估结果发布方式的选项。
字段
-
EvaluationContext
— UTF -8 字符串,匹配. Custom string pattern #42评估的背景。
-
ResultsS3Prefix
— UTF -8 字符串,匹配. Custom string pattern #43Amazon S3 前缀位于结果之前。
-
CloudWatchMetricsEnabled
– 布尔值。为您的数据质量结果启用指标。
-
ResultsPublishingEnabled
– 布尔值。为您的数据质量结果启用发布。
DQStopJobOnFailureOptions结构
用于配置在数据质量评估失败时如何停止作业的选项。
字段
-
StopJobOnFailureTiming
— UTF -8 字符串(有效值:Immediate
|AfterDataLoad
)。如果您的数据质量评估失败,何时停止作业。选项有 “即时” 或 AfterDataLoad。
EvaluateDataQualityMultiFrame 结构
指定您的数据质量评估标准。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45数据质量评估的名称。
-
Inputs
— 必需:一个由 UTF -8 个字符串组成的数组,至少 1 个字符串。您的数据质量评估的输入。此列表中的第一个输入是主数据来源。
-
AdditionalDataSources
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #45
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
除主数据来源之外的所有数据来源的别名。
-
Ruleset
— 必填:UTF-8 个字符串,长度不小于 1 或超过 65536 字节,匹配。Custom string pattern #41数据质量评估的规则集。
-
PublishingOptions
– 一个 DQResultsPublishingOptions 对象。用于配置结果发布方式的选项。
-
AdditionalOptions
– 键值对的映射数组。每个键都是一个 UTF -8 字符串(有效值:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
)。每个值都是一个 UTF -8 字符串。
用于配置转换运行时行为的选项。
-
StopJobOnFailureOptions
– 一个 DQStopJobOnFailureOptions 对象。用于配置在数据质量评估失败时如何停止作业的选项。
脚本结构
在 AWS Glue 作业中使用 AWS Glue DataBrew 配方的 AWS Glue Studio 节点。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45AWS Glue 工作室节点的名称。
-
Inputs
— 必需:由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为脚本节点的输入的节点,由 id 标识。
-
RecipeReference
– 一个 RecipeReference 对象。对节点使用的 DataBrew 配方的引用。
-
RecipeSteps
– RecipeStep 对象的数组。配方节点中使用的转换步骤。
RecipeReference 结构
对 AWS Glue DataBrew 食谱的引用。
字段
-
RecipeArn
— 必填:UTF-8 字符串,匹配. Custom string pattern #43DataBrew 食谱ARN中的那个。
-
RecipeVersion
— 必填:UTF-8 个字符串,长度不小于 1 或超过 16 个字节。DataBrew 食谱 RecipeVersion 中的那个。
SnowflakeNodeData 结构
指定 Studio 中雪花节点的 AWS Glue 配置。
字段
-
SourceType
— UTF -8 字符串,匹配. Custom string pattern #42指定检索数据的指定方式。有效值:
"table"
、"query"
。 -
Connection
– 一个 选项 对象。指定与 Snowflake 端点 AWS Glue 的数据目录连接。
-
Schema
— UTF -8 字符串。为您的节点指定要使用的 Snowflake 数据库架构。
-
Table
— UTF -8 字符串。为您的节点指定要使用的 Snowflake 表。
-
Database
— UTF -8 字符串。为您的节点指定要使用的 Snowflake 数据库。
-
TempDir
— UTF -8 字符串,匹配. Custom string pattern #43当前未使用。
-
IamRole
– 一个 选项 对象。当前未使用。
-
AdditionalOptions
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,与. Custom string pattern #43
每个值都是一个 UTF -8 字符串,与. Custom string pattern #43
指定传递给 Snowflake 连接器的其他选项。如果在此节点中以其他地方指定了选项,则优先使用该选项。
-
SampleQuery
— UTF -8 字符串。用于检索
query
源类型的数据的SQL字符串。 -
PreAction
— UTF -8 字符串。在 Snowflake 连接器执行其标准操作之前运行的SQL字符串。
-
PostAction
— UTF -8 字符串。在 Snowflake 连接器执行其标准操作之后运行的SQL字符串。
-
Action
— UTF -8 字符串。指定在写入包含先前存在数据的表时要执行的操作。有效值:
append
、merge
、truncate
、drop
。 -
Upsert
– 布尔值。在“操作”为
append
时使用。指定行已存在时的解析行为。如果为 true,则先前存在的行将被更新。如果为 false,则将插入这些行。 -
MergeAction
— UTF -8 字符串,匹配. Custom string pattern #42指定合并操作。有效值:
simple
、custom
。如果是简单,则合并行为由MergeWhenMatched
和MergeWhenNotMatched
定义。如果是自定义,则MergeClause
由定义。 -
MergeWhenMatched
— UTF -8 字符串,匹配. Custom string pattern #42指定在合并时如何解析与先前存在的数据相匹配的记录。有效值:
update
、delete
。 -
MergeWhenNotMatched
— UTF -8 字符串,匹配. Custom string pattern #42指定在合并时如何处理与先前存在的数据不匹配的记录。有效值:
insert
、none
。 -
MergeClause
— UTF -8 字符串。指定自定义合并行为的SQL语句。
-
StagingTable
— UTF -8 字符串。执行
merge
或更新插入append
操作时使用的暂存表的名称。数据被写入此表,然后通过生成的后期操作将其移动到table
。 -
SelectedColumns
– 选项 对象的数组。指定在检测到合并和更新插入的匹配项时用于标识记录的组合列。带有
value
、label
和description
键的结构列表。每个结构都描述了一列。 -
AutoPushdown
– 布尔值。指定是否启用自动查询下推。如果启用了下推,那么当在 Spark 上运行查询时,如果可以将部分查询“下推”到 Snowflake 服务器,则会将其下推。这提高了某些查询的性能。
-
TableSchema
– 选项 对象的数组。手动定义节点的目标架构。带有
value
、label
和description
键的结构列表。每个结构都定义了一列。
SnowflakeSource 结构
指定 Snowflake 数据来源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Snowflake 数据来源的名称。
-
Data
– 必填:一个 SnowflakeNodeData 对象。Snowflake 数据来源的配置。
-
OutputSchemas
– GlueSchema 对象的数组。为输出数据指定用户定义的架构。
SnowflakeTarget 结构
指定 Snowflake 目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45Snowflake 目标的名称。
-
Data
– 必填:一个 SnowflakeNodeData 对象。指定 Snowflake 目标节点的数据。
-
Inputs
— 由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
ConnectorDataSource 结构
指定使用标准连接选项生成的源。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45此源节点的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43提供给底层 AWS Glue 库的。
connectionType
此节点类型支持以下连接类型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必填:键值对的映射数组。每个密钥都是一个 UTF -8 字符串。
每个值都是一个 UTF -8 字符串。
指定节点连接选项的映射。您可以在 AWS Glue 文档的 “连接参数” 部分中找到相应连接类型的标准连接选项。
-
OutputSchemas
– GlueSchema 对象的数组。指定该源的数据 Schema。
ConnectorDataTarget 结构
指定使用标准连接选项生成的目标。
字段
-
Name
— 必填:UTF-8 字符串,匹配. Custom string pattern #45此目标节点的名称。
-
ConnectionType
— 必填:UTF-8 字符串,匹配. Custom string pattern #43提供给底层 AWS Glue 库的。
connectionType
此节点类型支持以下连接类型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必填:键值对的映射数组。每个密钥都是一个 UTF -8 字符串。
每个值都是一个 UTF -8 字符串。
指定节点连接选项的映射。您可以在 AWS Glue 文档的 “连接参数” 部分中找到相应连接类型的标准连接选项。
-
Inputs
— 由 UTF -8 个字符串组成的数组,不少于 1 个或多于 1 个字符串。作为数据目标输入的节点。
RecipeStep 结构
AWS Glue Studio 数据准备配方节点中使用的配方步骤。
字段
-
Action
– 必填:一个 RecipeAction 对象。配方步骤的转换操作。
-
ConditionExpressions
– ConditionExpression 对象的数组。配方步骤的条件表达式。
RecipeAction 结构
在 AWS Glue Studio 数据准备配方节点中定义的操作。
字段
-
Operation
— 必填:UTF-8 个字符串,长度不小于 1 或超过 128 字节,匹配。Custom string pattern #38配方操作的操作。
-
Parameters
– 键值对的映射数组。每个密钥都是一个 UTF -8 字符串,长度不小于 1 或超过 128 字节,与. Custom string pattern #39
每个值都是一个 UTF -8 字符串,长度不小于 1 或超过 32768 字节。
配方操作的参数。
ConditionExpression 结构
在 AWS Glue Studio 数据准备配方节点中定义的条件表达式。
字段
-
Condition
— 必填:UTF-8 个字符串,长度不小于 1 或超过 128 字节,匹配。Custom string pattern #38条件表达式的条件。
-
Value
— UTF -8 字符串,长度不超过 1024 字节。条件表达式的条件。
-
TargetColumn
— 必填:UTF-8 个字符串,长度不小于 1 或超过 1024 字节。条件表达式的目标列。