本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
視覺化任務 API
視覺化任務 API 可讓您使用代表任務視覺化組態的 JSON 物件中的 AWS Glue API,來建立資料整合 AWS Glue 任務。
清單CodeGenConfigurationNodes
會提供給建立或更新任務 API,以在 AWS Glue Studio 中為建立的任務註冊 DAG,並產生相關聯的程式碼。
資料類型
CodeGenConfigurationNode 結構
CodeGenConfigurationNode
列舉所有有效的節點類型。僅可以填入一個成員變數。
欄位
-
AthenaConnectorSource
– AthenaConnectorSource 物件。指定 Amazon Athena 資料來源的連接器。
-
JDBCConnectorSource
– JDBCConnectorSource 物件。指定 JDBC 資料來源的連接器。
-
SparkConnectorSource
– SparkConnectorSource 物件。指定 Apache Spark 資料來源的連接器。
-
CatalogSource
– CatalogSource 物件。在 Data Catalog 中指定 AWS Glue 資料存放區。
-
RedshiftSource
– RedshiftSource 物件。指定 Amazon Redshift 資料存放區。
-
S3CatalogSource
– S3CatalogSource 物件。在 Data Catalog 中指定 Amazon S3 AWS Glue 資料存放區。
-
S3CsvSource
– S3CsvSource 物件。指定存放在 Amazon S3 中的命令分隔值 (CSV) 資料存放區。
-
S3JsonSource
– S3JsonSource 物件。指定儲存在 Amazon S3 中的 JSON 資料存放區。
-
S3ParquetSource
– S3ParquetSource 物件。指定存放在 Amazon S3 中的 Apache Parquet 資料存放區。
-
RelationalCatalogSource
– RelationalCatalogSource 物件。在 Data Catalog 中指定關聯式目錄 AWS Glue 資料存放區。
-
DynamoDBCatalogSource
– DynamoDBCatalogSource 物件。在 Data Catalog 中指定 DynamoDBC Catalog AWS Glue 資料存放區。
-
JDBCConnectorTarget
– JDBCConnectorTarget 物件。指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
-
SparkConnectorTarget
– SparkConnectorTarget 物件。指定使用 Apache Spark 連接器的目標。
-
CatalogTarget
– BasicCatalogTarget 物件。指定使用 AWS Glue Data Catalog 資料表的目標。
-
RedshiftTarget
– RedshiftTarget 物件。指定使用 Amazon Redshift 的目標。
-
S3CatalogTarget
– S3CatalogTarget 物件。指定使用 Data Catalog 寫入 Amazon S3 AWS Glue 的資料目標。
-
S3GlueParquetTarget
– S3GlueParquetTarget 物件。指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
-
S3DirectTarget
– S3DirectTarget 物件。指定寫入 Amazon S3 的資料目標。
-
ApplyMapping
– ApplyMapping 物件。指定將資料來源中的資料屬性索引鍵映射至資料目標中資料屬性索引鍵的轉換。您可以重新命名索引鍵、修改索引鍵的資料類型,以及選擇要從資料集中捨棄哪些索引鍵。
-
SelectFields
– SelectFields 物件。指定選擇要保留之資料屬性索引鍵的轉換。
-
DropFields
– DropFields 物件。指定選擇要捨棄之資料屬性索引鍵的轉換。
-
RenameField
– RenameField 物件。指定重新命名單一資料屬性索引鍵的轉換。
-
Spigot
– Spigot 物件。指定將資料範例寫入 Amazon S3 儲存貯體的轉換。
-
Join
– Join 物件。使用指定資料屬性索引鍵上的比較片語,將兩個資料集聯結為一個資料集。可以使用內、外、左、右、左半、左反聯結。
-
SplitFields
– SplitFields 物件。指定將資料屬性索引鍵分割成兩個
DynamicFrames
的轉換。輸出是DynamicFrames
的集合:一個具有所選資料屬性索引鍵,另一個具有其餘資料屬性索引鍵。 -
SelectFromCollection
– SelectFromCollection 物件。指定從
DynamicFrames
的集合選擇一個DynamicFrame
的轉換。輸出為所選的DynamicFrame
。 -
FillMissingValues
– FillMissingValues 物件。指定如下轉換:尋找遺失值之資料集中的記錄,並新增具有由插補決定值的新欄位。輸入資料集會用於訓練機器學習模型,以決定遺失值應該是什麼。
-
Filter
– Filter 物件。指定根據篩選條件將資料集分割成兩個的轉換。
-
CustomCode
– CustomCode 物件。指定使用您提供的自訂程式碼來執行資料轉換的轉換。輸出是 DynamicFrames 的集合。
-
SparkSQL
– SparkSQL 物件。指定轉換,其中輸入使用 Spark SQL 語法的 SQL 查詢來轉換資料。輸出是單個
DynamicFrame
。 -
DirectKinesisSource
– DirectKinesisSource 物件。指定直接的 Amazon Kinesis 資料來源。
-
DirectKafkaSource
– DirectKafkaSource 物件。指定 Apache Kafka 資料存放區。
-
CatalogKinesisSource
– CatalogKinesisSource 物件。在 AWS Glue Data Catalog 中指定 Kinesis 資料來源。
-
CatalogKafkaSource
– CatalogKafkaSource 物件。指定 Data Catalog 中的 Apache Kafka 資料存放區。
-
DropNullFields
– DropNullFields 物件。指定轉換,如果資料行中的所有值都為「null」(空),則從資料集中刪除此行。根據預設, AWS Glue Studio 會辨識 Null 物件,但一些值,例如空字串、「null」字串、-1 整數或其他預留位置,例如零,不會自動辨識為 Null。
-
Merge
– Merge 物件。指定根據指定的主索引鍵來合併此
DynamicFrame
與暫存DynamicFrame
以識別記錄的轉換。重複的記錄 (具有相同主索引鍵的記錄) 不會被刪除重複資料。 -
Union
– UNION 物件。指定將兩個或多個資料集中的列合併為單一結果的轉換。
-
PIIDetection
– PIIDetection 物件。指定用於標識、刪除或遮罩 PII 資料的轉換。
-
Aggregate
– Aggregate 物件。指定轉換,依照所選欄位來分組行,並依照指定函數計算彙總值。
-
DropDuplicates
– DropDuplicates 物件。指定用於從資料集刪除重複資料行的轉換。
-
GovernedCatalogTarget
– GovernedCatalogTarget 物件。指定資料目標寫入受管目錄。
-
GovernedCatalogSource
– GovernedCatalogSource 物件。指定受管 Data Catalog 中的 資料來源。
-
MicrosoftSQLServerCatalogSource
– MicrosoftSQLServerCatalogSource 物件。指定 AWS Glue Data Catalog 中的 Microsoft SQL 伺服器資料來源。
-
MySQLCatalogSource
– MySQLCatalogSource 物件。在 AWS Glue Data Catalog 中指定 MySQL 資料來源。
-
OracleSQLCatalogSource
– OracleSQLCatalogSource 物件。在 AWS Glue Data Catalog 中指定 Oracle 資料來源。
-
PostgreSQLCatalogSource
– PostgreSQLCatalogSource 物件。在 AWS Glue Data Catalog 中指定 PostgresSQL 資料來源。
-
MicrosoftSQLServerCatalogTarget
– MicrosoftSQLServerCatalogTarget 物件。指定使用 Microsoft SQL 的目標。
-
MySQLCatalogTarget
– MySQLCatalogTarget 物件。指定使用 MySQL 的目標。
-
OracleSQLCatalogTarget
– OracleSQLCatalogTarget 物件。指定使用 Oracle SQL 的目標。
-
PostgreSQLCatalogTarget
– PostgreSQLCatalogTarget 物件。指定使用 Postgres SQL 的目標。
-
DynamicTransform
– DynamicTransform 物件。指定使用者建立的自訂視覺化轉換。
-
EvaluateDataQuality
– EvaluateDataQuality 物件。指定資料品質評估標準。
-
S3CatalogHudiSource
– S3CatalogHudiSource 物件。指定在 AWS Glue Data Catalog 中註冊的 Hudi 資料來源。資料來源必須存放在 中 Amazon S3。
-
CatalogHudiSource
– CatalogHudiSource 物件。指定在 AWS Glue Data Catalog 中註冊的 Hudi 資料來源。
-
S3HudiSource
– S3HudiSource 物件。指定存放於 的 Hudi 資料來源 Amazon S3。
-
S3HudiCatalogTarget
– S3HudiCatalogTarget 物件。指定在 AWS Glue Data Catalog 中寫入 Hudi 資料來源的目標。
-
S3HudiDirectTarget
– S3HudiDirectTarget 物件。指定寫入 Hudi 資料來源的目標 Amazon S3。
-
S3CatalogDeltaSource
– S3CatalogDeltaSource 物件。指定在 AWS Glue Data Catalog 中註冊的 Delta Lake 資料來源。資料來源必須存放在 中 Amazon S3。
-
CatalogDeltaSource
– CatalogDeltaSource 物件。指定在 AWS Glue Data Catalog 中註冊的 Delta Lake 資料來源。
-
S3DeltaSource
– S3DeltaSource 物件。指定存放於 的 Delta Lake 資料來源 Amazon S3。
-
S3DeltaCatalogTarget
– S3DeltaCatalogTarget 物件。指定在 AWS Glue Data Catalog 中寫入 Delta Lake 資料來源的目標。
-
S3DeltaDirectTarget
– S3DeltaDirectTarget 物件。指定寫入 Delta Lake 資料來源的目標 Amazon S3。
-
AmazonRedshiftSource
– AmazonRedshiftSource 物件。指定在 Amazon Redshift 中寫入資料來源的目標。
-
AmazonRedshiftTarget
– AmazonRedshiftTarget 物件。指定在 Amazon Redshift 中寫入資料目標的目標。
-
EvaluateDataQualityMultiFrame
– EvaluateDataQualityMultiFrame 物件。指定資料品質評估標準。允許多個輸入資料,並會傳回動態影格集合。
-
Recipe
– Recipe 物件。指定 AWS Glue DataBrew 配方節點。
-
SnowflakeSource
– SnowflakeSource 物件。指定 Snowflake 資料來源。
-
SnowflakeTarget
– SnowflakeTarget 物件。指定寫入 Snowflake 資料來源的目標。
-
ConnectorDataSource
– ConnectorDataSource 物件。指定使用標準連線選項產生的來源。
-
ConnectorDataTarget
– ConnectorDataTarget 物件。指定使用標準連線選項產生的目標。
JDBCConnectorOptions 結構
連接器的其他連接選項。
欄位
-
FilterPredicate
– UTF-8 字串,需符合Custom string pattern #59。額外條件子句,用於篩選來源的資料。例如:
BillingCity='Mountain View'
當您使用查詢,而不是資料表名稱,您應該驗證查詢是否適用於指定的
filterPredicate
。 -
PartitionColumn
– UTF-8 字串,需符合Custom string pattern #59。用於分割的整數資料行名稱。此選項僅適用於包含在
lowerBound
、upperBound
以及numPartitions
中。此選項的運作方式與 Spark SQL JDBC 讀取器相同。 -
LowerBound
– 數字 (long),不可大於 None (無)。用來決定分割區步幅的
partitionColumn
最小值。 -
UpperBound
– 數字 (long),不可大於 None (無)。用來決定分割區步幅的
partitionColumn
最大值。 -
NumPartitions
– 數字 (long),不可大於 None (無)。分割區數。這個值,搭配
lowerBound
(包含) 及upperBound
(不含),形成用於分割partitionColumn
而產生之WHERE
子句表達式的分割區步幅。 -
JobBookmarkKeys
– UTF-8 字串陣列。用於排序之任務書籤索引鍵的名稱。
-
JobBookmarkKeysSortOrder
– UTF-8 字串,需符合Custom string pattern #59。指定升冪或降冪排序順序。
-
DataTypeMapping
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串 (有效值:
ARRAY
|BIGINT
|BINARY
|BIT
|BLOB
|BOOLEAN
|CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
|NULL
|NUMERIC
|NVARCHAR
|OTHER
|REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
|SQLXML
|STRUCT
|TIME
|TIME_WITH_TIMEZONE
|TIMESTAMP
|TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
)。每個值都是 UTF-8 字串 (有效值:
DATE
|STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
|BYTE
|SHORT
|DOUBLE
)。自訂資料類型映射,用於建置從 JDBC 資料類型到 AWS Glue 資料類型的映射。例如, 選項會透過呼叫驅動程式的
ResultSet.getString()
方法,將 JDBC 類型的資料欄位"dataTypeMapping":{"FLOAT":"STRING"}
映射FLOAT
至 JavaString
類型,並使用它來建置 AWS Glue 記錄。ResultSet
物件是由每個驅動程式實作,因此行為是特定於您使用的驅動程式。請參閱 JDBC 驅動程式的文件,瞭解驅動程式如何執行轉換。
StreamingDataPreviewOptions 結構
指定與資料預覽相關的選項,以檢視資料範例。
欄位
-
PollingTime
– 數字 (長),至少為 10。輪詢時間 (以毫秒為單位)。
-
RecordPollingLimit
– 數字 (長),至少為 1。輪詢的記錄數上限。
AthenaConnectorSource 結構
指定 Amazon Athena 資料來源的連接器。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。與連接器相關聯之連線的名稱。
-
ConnectorName
– 必要:UTF-8 字串,需符合Custom string pattern #59。連接器的名稱,可協助存取 AWS Glue Studio 中的資料存放區。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。連線類型,例如 marketplace.athena 或 custom.athena,指定連線到 Amazon Athena 資料存放區。
-
ConnectionTable
– UTF-8 字串,需符合Custom string pattern #59。資料來源中的資料表名稱。
-
SchemaName
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的 CloudWatch 日誌群組名稱。例如:
/aws-glue/jobs/output
。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 Athena 來源的資料架構。
JDBCConnectorSource 結構
指定 JDBC 資料來源的連接器。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。與連接器相關聯之連線的名稱。
-
ConnectorName
– 必要:UTF-8 字串,需符合Custom string pattern #59。連接器的名稱,可協助存取 AWS Glue Studio 中的資料存放區。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。連線類型,例如 marketplace.jdbc 或 custom.jdbc,同時指定與 JDBC 資料存放區的連線。
-
AdditionalOptions
– JDBCConnectorOptions 物件。連接器的其他連接選項。
-
ConnectionTable
– UTF-8 字串,需符合Custom string pattern #59。資料來源中的資料表名稱。
-
Query
– UTF-8 字串,需符合Custom string pattern #60。要從中取得資料的資料表或 SQL 查詢。您可以指定
ConnectionTable
或query
,但不能同時指定兩者。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 JDBC 來源的資料架構。
SparkConnectorSource 結構
指定 Apache Spark 資料來源的連接器。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。與連接器相關聯之連線的名稱。
-
ConnectorName
– 必要:UTF-8 字串,需符合Custom string pattern #59。連接器的名稱,可協助存取 AWS Glue Studio 中的資料存放區。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。連接的類型,如 marketplace.spark 或 custom.spark,指定 Apache Spark 資料存放區的連線。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 spark 來源的資料架構。
CatalogSource 結構
在 Data Catalog 中指定 AWS Glue 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
MySQLCatalogSource 結構
在 AWS Glue Data Catalog 中指定 MySQL 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
PostgreSQLCatalogSource 結構
在 AWS Glue Data Catalog 中指定 PostgresSQL 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
OracleSQLCatalogSource 結構
在 AWS Glue Data Catalog 中指定 Oracle 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
MicrosoftSQLServerCatalogSource 結構
指定 AWS Glue Data Catalog 中的 Microsoft SQL 伺服器資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
CatalogKinesisSource 結構
在 AWS Glue Data Catalog 中指定 Kinesis 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
StreamingOptions
– KinesisStreamingSourceOptions 物件。Kinesis 串流資料來源的其他選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。資料預覽的其他選項。
DirectKinesisSource 結構
指定直接的 Amazon Kinesis 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
StreamingOptions
– KinesisStreamingSourceOptions 物件。Kinesis 串流資料來源的其他選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。資料預覽的其他選項。
KinesisStreamingSourceOptions 結構
Amazon Kinesis 串流資料來源的其他選項。
欄位
-
EndpointUrl
– UTF-8 字串,需符合Custom string pattern #59。Kinesis 端點的 URL。
-
StreamName
– UTF-8 字串,需符合Custom string pattern #59。Kinesis 資料串流的名稱。
-
Classification
– UTF-8 字串,需符合Custom string pattern #59。選擇性分類。
-
Delimiter
– UTF-8 字串,需符合Custom string pattern #59。指定分隔符號字元。
-
StartingPosition
– UTF-8 字串 (有效值:latest="LATEST"
|trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
|timestamp="TIMESTAMP"
)。Kinesis 資料串流中要從中讀取資料的起始位置。可能的值包括
"latest"
、"trim_horizon"
、"earliest"
或yyyy-mm-ddTHH:MM:SSZ
模式中 UTC 格式的時間戳記字串 (其中Z
代表以 +/- 表示的 UTC 時區偏移。例如:"2023-04-04T08:00:00-04:00")。預設值為"latest"
。注意:只有 4.0 AWS Glue 版或更新版本才支援使用「startingPosition」的 UTC 格式時間戳記字串值。
-
MaxFetchTimeInMs
– 數字 (long),不可大於 None (無)。任務執行器從 Kinesis 資料串流讀取目前批次記錄所花費的時間上限,以毫秒 (ms) 為單位指定。在此期間可以進行多次
GetRecords
API 呼叫。預設值為1000
。 -
MaxFetchRecordsPerShard
– 數字 (long),不可大於 None (無)。每個微型批次 Kinesis 資料串流中每個碎片要擷取的記錄數量上限。注意:如果串流任務已經從 Kinesis 讀取額外的記錄 (在相同的取得記錄呼叫中),用戶端可以超過此限制。如果
MaxFetchRecordsPerShard
需要嚴格,則需要 的倍數MaxRecordPerRead
。預設值為100000
。 -
MaxRecordPerRead
– 數字 (long),不可大於 None (無)。要從每個 getRecords 操作的 Kinesis 資料串流中擷取的記錄數量上限。預設值為
10000
。 -
AddIdleTimeBetweenReads
– 布林值。增加兩個連續 getRecords 操作之間的時間延遲。預設值為
"False"
。此選項僅在 Glue 2.0 及以上版本上才可設定。 -
IdleTimeBetweenReadsInMs
– 數字 (long),不可大於 None (無)。連續兩個 getRecords 操作之間的最小延遲時間,以毫秒為單位指定。預設值為
1000
。此選項僅在 Glue 2.0 及以上版本上才可設定。 -
DescribeShardInterval
– 數字 (long),不可大於 None (無)。指令碼考慮重新分片之兩個 ListShards API 呼叫之間的最小時間間隔。預設值為
1s
。 -
NumRetries
– 數字 (整數),不可大於 None (無)。Kinesis Data Streams API 請求的重試數上限。預設值為
3
。 -
RetryIntervalMs
– 數字 (long),不可大於 None (無)。重試 Kinesis Data Streams API 呼叫之前的冷卻時間期間 (以毫秒為單位)。預設值為
1000
。 -
MaxRetryIntervalMs
– 數字 (long),不可大於 None (無)。Kinesis Data Streams API 呼叫之兩次重試之間的最大冷卻時間期間 (以毫秒為單位)。預設值為
10000
。 -
AvoidEmptyBatches
– 布林值。避免建立空白微批次任務,方法是在批次開始之前檢查 Kinesis 資料串流中是否有未讀取的資料。預設值為
"False"
。 -
StreamArn
– UTF-8 字串,需符合Custom string pattern #59。Kinesis 資料串流的 Amazon Resource Name (ARN)。
-
RoleArn
– UTF-8 字串,需符合Custom string pattern #59。使用 AWS Security Token Service (AWS STS) 擔任之角色的 Amazon Resource Name (ARN)。此角色必須具有描述或讀取 Kinesis 資料串流記錄操作的許可。存取不同帳戶中的資料串流時,您必須使用此參數。搭配
"awsSTSSessionName"
使用。 -
RoleSessionName
– UTF-8 字串,需符合Custom string pattern #59。使用 AWS STS 擔任角色之工作階段的識別符。存取不同帳戶中的資料串流時,您必須使用此參數。搭配
"awsSTSRoleARN"
使用。 -
AddRecordTimestamp
– UTF-8 字串,需符合Custom string pattern #59。當此選項設定為 'true' 時,資料輸出將包含一個名為 "__src_timestamp" 的額外資料欄,其指示串流收到相應記錄的時間。預設值為 'false'。4.0 AWS Glue 版或更新版本支援此選項。
-
EmitConsumerLagMetrics
– UTF-8 字串,需符合Custom string pattern #59。當此選項設定為「true」時,每個批次都會在串流接收到的最舊記錄到送達 AWS Glue CloudWatch 的時間之間發出指標。指標的名稱為 "glue.driver.streaming.maxConsumerLagInMs"。預設值為 'false'。在 AWS Glue 4.0 版或更新版中支援此選項。
-
StartingTimestamp
– UTF-8 字串。Kinesis 資料串流中開始讀取資料之記錄的時間戳記。可能的值是
yyyy-mm-ddTHH:MM:SSZ
模式的 UTC 格式的時間戳記字串 (其中 Z 代表以 +/- 表示的 UTC 時區偏移。例如:"2023-04-04T08:00:00+08:00")。
CatalogKafkaSource 結構
指定 Data Catalog 中的 Apache Kafka 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
StreamingOptions
– KafkaStreamingSourceOptions 物件。指定串流選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。指定與資料預覽相關的選項,以檢視資料範例。
DirectKafkaSource 結構
指定 Apache Kafka 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
StreamingOptions
– KafkaStreamingSourceOptions 物件。指定串流選項。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。指定與資料預覽相關的選項,以檢視資料範例。
KafkaStreamingSourceOptions 結構
其他串流選項。
欄位
-
BootstrapServers
– UTF-8 字串,需符合Custom string pattern #59。自舉伺服器 URL 的清單,例如
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
。此選項必須在 API 呼叫中指定,或在 Data Catalog 的資料表中繼資料中定義。 -
SecurityProtocol
– UTF-8 字串,需符合Custom string pattern #59。用來與代理程式通訊的協定。可能的值為
"SSL"
或"PLAINTEXT"
。 -
ConnectionName
– UTF-8 字串,需符合Custom string pattern #59。連線的名稱。
-
TopicName
– UTF-8 字串,需符合Custom string pattern #59。在 Apache Kafka 中指定的主題名稱。您必須指定至少 1 個
"topicName"
、"assign"
或"subscribePattern"
。 -
Assign
– UTF-8 字串,需符合Custom string pattern #59。要取用的特定
TopicPartitions
。您必須指定至少 1 個"topicName"
、"assign"
或"subscribePattern"
。 -
SubscribePattern
– UTF-8 字串,需符合Custom string pattern #59。識別要訂閱的主題清單的 Java regex 字串。您必須指定至少 1 個
"topicName"
、"assign"
或"subscribePattern"
。 -
Classification
– UTF-8 字串,需符合Custom string pattern #59。選擇性分類。
-
Delimiter
– UTF-8 字串,需符合Custom string pattern #59。指定分隔符號字元。
-
StartingOffsets
– UTF-8 字串,需符合Custom string pattern #59。要從中讀取資料的 Kafka 主題的起始位置。可能的值為
"earliest"
或"latest"
。預設值為"latest"
。 -
EndingOffsets
– UTF-8 字串,需符合Custom string pattern #59。批次查詢結束時的終點。可能值為
"latest"
或指定每個TopicPartition
結束偏移的 JSON 字串。 -
PollTimeoutMs
– 數字 (long),不可大於 None (無)。在 Spark 任務執行器中從 Kafka 輪詢資料的逾時 (以毫秒為單位)。預設值為
512
。 -
NumRetries
– 數字 (整數),不可大於 None (無)。擷取 Kafka 位移失敗之前,要重試的次數。預設值為
3
。 -
RetryIntervalMs
– 數字 (long),不可大於 None (無)。重試擷取 Kafka 偏移量之前等待的時間 (毫秒)。預設值為
10
。 -
MaxOffsetsPerTrigger
– 數字 (long),不可大於 None (無)。每個觸發程序間隔所處理之偏移數目上限的速率限制。指定的偏移總數會按比例跨
topicPartitions
或不同磁碟區而分割。預設值為 null,這表示消費者讀取所有偏移,直到已知的最新偏移。 -
MinPartitions
– 數字 (整數),不可大於 None (無)。從 Kafka 讀取所需的分割區最小數量。預設值為 null,這表示 Spark 分割區的數量等於 Kafka 分割區的數量。
-
IncludeHeaders
– 布林值。是否包括 Kafka 標頭。當選項設定為「true」時,資料輸出將包含一個名為「glue_streaming_kafka_headers」的額外欄,其類型為
Array[Struct(key: String, value: String)]
。預設值為 "false"。此選項僅適用於 3 AWS Glue .0 版或更新版本。 -
AddRecordTimestamp
– UTF-8 字串,需符合Custom string pattern #59。當此選項設定為 'true' 時,資料輸出將包含一個名為 "__src_timestamp" 的額外資料欄,其指示主題收到相應記錄的時間。預設值為 'false'。4.0 AWS Glue 版或更新版本支援此選項。
-
EmitConsumerLagMetrics
– UTF-8 字串,需符合Custom string pattern #59。當此選項設定為「true」時,每個批次都會在主題接收的最舊記錄到送達 AWS Glue CloudWatch 的時間之間發出指標。指標的名稱為 "glue.driver.streaming.maxConsumerLagInMs"。預設值為 'false'。在 AWS Glue 4.0 版或更新版中支援此選項。
-
StartingTimestamp
– UTF-8 字串。Kafka 主題中開始讀取資料之記錄的時間戳記。可能的值是
yyyy-mm-ddTHH:MM:SSZ
模式的 UTC 格式的時間戳記字串 (其中 Z 代表以 +/- 表示的 UTC 時區偏移。例如:"2023-04-04T08:00:00+08:00")。只能設定
StartingTimestamp
或StartingOffsets
。
RedshiftSource 結構
指定 Amazon Redshift 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Amazon Redshift 資料存放區的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫資料表。
-
RedshiftTmpDir
– UTF-8 字串,需符合Custom string pattern #59。從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
TmpDirIAMRole
– UTF-8 字串,需符合Custom string pattern #59。具有許可的 IAM 角色。
AmazonRedshiftSource 結構
指定 Amazon Redshift 來源。
欄位
-
Name
– UTF-8 字串,需符合Custom string pattern #61。Amazon Redshift 來源的名稱。
-
Data
– AmazonRedshiftNodeData 物件。指定 Amazon Reshift 來源節點的資料。
AmazonRedshiftNodeData 結構
指定 Amazon Redshift 節點。
欄位
-
AccessType
– UTF-8 字串,需符合Custom string pattern #58。Redshift 連線的存取類型。可以是直接連線或型錄連線。
-
SourceType
– UTF-8 字串,需符合Custom string pattern #58。用來指定特定資料表是來源還是自訂查詢的來源類型。
-
Connection
– 選項 物件。Redshift 叢集的 AWS Glue 連線。
-
Schema
– 選項 物件。使用直接連線時的 Redshift 結構描述名稱。
-
Table
– 選項 物件。使用直接連線時的 Redshift 資料表名稱。
-
CatalogDatabase
– 選項 物件。使用 AWS Glue 資料目錄時 Data Catalog 資料庫的名稱。
-
CatalogTable
– 選項 物件。使用 AWS Glue 資料目錄時的資料目錄資料表名稱。
-
CatalogRedshiftSchema
– UTF-8 字串。使用資料型錄時的 Redshift 結構描述名稱。
-
CatalogRedshiftTable
– UTF-8 字串。要讀取的資料庫資料表。
-
TempDir
– UTF-8 字串,需符合Custom string pattern #59。從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
IamRole
– 選項 物件。選用。連線到 S3 時使用的角色名稱。當保留空白時,IAM 角色預設為任務上的角色。
-
AdvancedOptions
– 一個 AmazonRedshiftAdvancedOption 物件陣列。連線至 Redshift 叢集時的選用值。
-
SampleQuery
– UTF-8 字串。當 SourceType 為「查詢」時,用於從 Redshift 來源擷取資料的 SQL。
-
PreAction
– UTF-8 字串。執行帶有 upsert 的 MERGE 或 APPEND 之前使用的 SQL。
-
PostAction
– UTF-8 字串。執行帶有 upsert 的 MERGE 或 APPEND 之前使用的 SQL。
-
Action
– UTF-8 字串。指定寫入 Redshift 叢集的方式。
-
TablePrefix
– UTF-8 字串,需符合Custom string pattern #58。指定資料表的字首。
-
Upsert
– 布林值。執行 APPEND 時,對 Redshift 接收器使用的動作。
-
MergeAction
– UTF-8 字串,需符合Custom string pattern #58。確定如何處理 Redshift 接收器中的 MERGE 時使用的動作。
-
MergeWhenMatched
– UTF-8 字串,需符合Custom string pattern #58。當現有記錄與新記錄相符時,確定如何處理 Redshift 接收器中的 MERGE 時使用的動作。
-
MergeWhenNotMatched
– UTF-8 字串,需符合Custom string pattern #58。當現有記錄與新記錄不符時,確定如何處理 Redshift 接收器中的 MERGE 時使用的動作。
-
MergeClause
– UTF-8 字串。在自訂合併中用於處理相符記錄的 SQL。
-
CrawlerConnection
– UTF-8 字串。指定與所用型錄資料表相關聯的連線名稱。
-
TableSchema
– 一個 選項 物件陣列。指定節點的結構描述輸出陣列。
-
StagingTable
– UTF-8 字串。執行帶有 upsert 的 MERGE 或 APPEND 時使用的臨時暫存資料表名稱。
-
SelectedColumns
– 一個 選項 物件陣列。當執行帶有 upsert 的 MERGE 或 APPEND 時,用於確定相符記錄的資料欄名稱清單。
AmazonRedshiftAdvancedOption 結構
連線至 Redshift 叢集時指定選用值。
欄位
-
Key
– UTF-8 字串。其他連線選項的金鑰。
-
Value
– UTF-8 字串。其他連線選項的值。
選項結構
指定選項值。
欄位
-
Value
– UTF-8 字串,需符合Custom string pattern #59。指定選項的值。
-
Label
– UTF-8 字串,需符合Custom string pattern #59。指定選項的標籤。
-
Description
– UTF-8 字串,需符合Custom string pattern #59。指定選項的描述。
S3CatalogSource 結構
在 Data Catalog 中指定 Amazon S3 AWS Glue 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫資料表。
-
PartitionPredicate
– UTF-8 字串,需符合Custom string pattern #59。滿足此述詞的分割區會被刪除。這些分割區中仍在保留期間內的檔案不會被刪除。設定為
""
– 預設為空值。 -
AdditionalOptions
– S3SourceAdditionalOptions 物件。指定其他連接選項。
S3SourceAdditionalOptions 結構
指定 Amazon S3 資料存放區的其他連線選項。
欄位
-
BoundedSize
– 數字 (long)。設定要處理之資料集的目標大小上限 (以位元組為單位)。
-
BoundedFiles
– 數字 (long)。設定要處理的檔案目標數目的上限。
S3CsvSource 結構
指定存放在 Amazon S3 中的命令分隔值 (CSV) 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Paths
– 必要:UTF-8 字串陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
– UTF-8 字串 (有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
– UTF-8 字串陣列。包含要排除之 Unix 樣式 glob 模式 JSON 清單的字串。例如,"[\"**.pdf\"]" 會排除所有 PDF 檔案。
-
GroupSize
– UTF-8 字串,需符合Custom string pattern #59。目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
– UTF-8 字串,需符合Custom string pattern #59。當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要在少於 50,000 個檔案時開啟分組,請將此參數設定為 "inPartition"。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。使用 JobBookmarks 來考量 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項會指定從最後 maxBand 秒內所要儲存的檔案數上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
Separator
– 必要:UTF-8 字串 (有效值:comma="COMMA"
|ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
)。指定分隔符號字元。預設值為逗號:",",但您仍可指定任何其他字元。
-
Escaper
– UTF-8 字串,需符合Custom string pattern #59。指定用於逸出的字元。只有在讀取 CSV 檔案時,才會使用此選項。預設值為
none
。若啟用,後面緊接的字元會維持現狀,除了一小組眾所皆知的逸出字元 (\n
、\r
、\t
與\0
) 以外。 -
QuoteChar
– 必要:UTF-8 字串 (有效值:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
)。指定用於引用的字元。預設為雙引號:
'"'
。將之設為-1
可完全關閉引用功能。 -
Multiline
– 布林值。布林值,用以指定單項記錄是否可以跨越多行。當欄位內含引用的新行字元時,可能就會發生這種情況。若有任何記錄跨越多行,請務必將此選項設為 True。預設值為
False
,如此在剖析時會更加積極地分割檔案。 -
WithHeader
– 布林值。布林值,指定是否要將第一行做為標頭。預設值為
False
。 -
WriteHeader
– 布林值。布林值,指定是否要將標頭寫入輸入之中。預設值為
True
。 -
SkipFirst
– 布林值。布林值,指定是否要略過第一個資料行。預設值為
False
。 -
OptimizePerformance
– 布林值。指定是否要使用進階 SIMD CSV 讀取器,以及 Apache Arrow 為基礎的直欄式記憶體格式。僅適用於 3.0 AWS Glue 版。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 S3 CSV 來源的資料架構。
DirectJDBCSource 結構
指定直接 JDBC 來源連線。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。JDBC 來源連線的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。JDBC 來源連線的資料庫。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。JDBC 來源連線的資料表。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。JDBC 來源的連線名稱。
-
ConnectionType
– 必要:UTF-8 字串 (有效值:sqlserver
|mysql
|oracle
|postgresql
|redshift
)。JDBC 來源的連線類型。
-
RedshiftTmpDir
– UTF-8 字串,需符合Custom string pattern #59。JDBC Redshift 來源的暫存目錄。
S3DirectSourceAdditionalOptions 結構
指定 Amazon S3 資料存放區的其他連線選項。
欄位
-
BoundedSize
– 數字 (long)。設定要處理之資料集的目標大小上限 (以位元組為單位)。
-
BoundedFiles
– 數字 (long)。設定要處理的檔案目標數目的上限。
-
EnableSamplePath
– 布林值。設定選項啟用範例路徑。
-
SamplePath
– UTF-8 字串,需符合Custom string pattern #59。如果啟用,則會指定範例路徑。
S3JsonSource 結構
指定儲存在 Amazon S3 中的 JSON 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Paths
– 必要:UTF-8 字串陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
– UTF-8 字串 (有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
– UTF-8 字串陣列。包含要排除之 Unix 樣式 glob 模式 JSON 清單的字串。例如,"[\"**.pdf\"]" 會排除所有 PDF 檔案。
-
GroupSize
– UTF-8 字串,需符合Custom string pattern #59。目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
– UTF-8 字串,需符合Custom string pattern #59。當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要在少於 50,000 個檔案時開啟分組,請將此參數設定為 "inPartition"。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。使用 JobBookmarks 來考量 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項會指定從最後 maxBand 秒內所要儲存的檔案數上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
JsonPath
– UTF-8 字串,需符合Custom string pattern #59。定義 JSON 資料的 JsonPath 字串。
-
Multiline
– 布林值。布林值,用以指定單項記錄是否可以跨越多行。當欄位內含引用的新行字元時,可能就會發生這種情況。若有任何記錄跨越多行,請務必將此選項設為 True。預設值為
False
,如此在剖析時會更加積極地分割檔案。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 S3 JSON 來源的資料架構。
S3ParquetSource 結構
指定存放在 Amazon S3 中的 Apache Parquet 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Paths
– 必要:UTF-8 字串陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
– UTF-8 字串 (有效值:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
– UTF-8 字串陣列。包含要排除之 Unix 樣式 glob 模式 JSON 清單的字串。例如,"[\"**.pdf\"]" 會排除所有 PDF 檔案。
-
GroupSize
– UTF-8 字串,需符合Custom string pattern #59。目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
– UTF-8 字串,需符合Custom string pattern #59。當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要在少於 50,000 個檔案時開啟分組,請將此參數設定為 "inPartition"。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。使用 JobBookmarks 來考量 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項會指定從最後 maxBand 秒內所要儲存的檔案數上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 S3 Parquet 來源的資料架構。
S3DeltaSource 結構
指定存放於 的 Delta Lake 資料來源 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Delta Lake 來源的名稱。
-
Paths
– 必要:UTF-8 字串陣列。要讀取的 Amazon S3 路徑清單。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions 物件。指定連接器的其他選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
S3CatalogDeltaSource 結構
指定在 AWS Glue Data Catalog 中註冊的 Delta Lake 資料來源。資料來源必須存放在 中 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Delta Lake 資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
CatalogDeltaSource 結構
指定在 AWS Glue Data Catalog 中註冊的 Delta Lake 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Delta Lake 資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
S3HudiSource 結構
指定存放於 的 Hudi 資料來源 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Hudi 來源的名稱。
-
Paths
– 必要:UTF-8 字串陣列。要讀取的 Amazon S3 路徑清單。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions 物件。指定連接器的其他選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
S3CatalogHudiSource 結構
指定在 AWS Glue Data Catalog 中註冊的 Hudi 資料來源。Hudi 資料來源必須存放在其中 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Hudi 資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
CatalogHudiSource 結構
指定在 AWS Glue Data Catalog 中註冊的 Hudi 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Hudi 資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
DynamoDBCatalogSource 結構
在 AWS Glue Data Catalog 中指定 DynamoDB 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
RelationalCatalogSource 結構
指定 AWS Glue Data Catalog 中的關聯式資料庫資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料來源的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取之資料庫中資料表的名稱。
JDBCConnectorTarget 結構
指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。與連接器相關聯之連線的名稱。
-
ConnectionTable
– 必要:UTF-8 字串,需符合Custom string pattern #59。資料目標中的資料表名稱。
-
ConnectorName
– 必要:UTF-8 字串,需符合Custom string pattern #59。將要使用的連接器名稱。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。連線類型,例如 marketplace.jdbc 或 custom.jdbc,指定與 JDBC 資料目標的連線。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 JDBC 目標的資料架構。
SparkConnectorTarget 結構
指定使用 Apache Spark 連接器的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
ConnectionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。Apache Spark 連接器的連線名稱。
-
ConnectorName
– 必要:UTF-8 字串,需符合Custom string pattern #59。Apache Spark 連接器的名稱。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。連接的類型,如 marketplace.spark 或 custom.spark,指定 Apache Spark 資料存放區的連線。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 spark 目標的資料架構。
BasicCatalogTarget 結構
指定使用 AWS Glue Data Catalog 資料表的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。分割區索引鍵,用於根據特定索引鍵或一組索引鍵,將資料分散到多個分割區或碎片。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。從清單中選擇包含要用作目標之資料表的資料庫。此資料庫必須存在於 Data Catalog 中。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。定義輸出資料結構描述的資料表。此資料表必須已存在於 Data Catalog 中。
MySQLCatalogTarget 結構
指定使用 MySQL 的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
PostgreSQLCatalogTarget 結構
指定使用 Postgres SQL 的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
OracleSQLCatalogTarget 結構
指定使用 Oracle SQL 的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
MicrosoftSQLServerCatalogTarget 結構
指定使用 Microsoft SQL 的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
RedshiftTarget 結構
指定使用 Amazon Redshift 的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
-
RedshiftTmpDir
– UTF-8 字串,需符合Custom string pattern #59。從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
TmpDirIAMRole
– UTF-8 字串,需符合Custom string pattern #59。具有許可的 IAM 角色。
-
UpsertRedshiftOptions
– UpsertRedshiftTargetOptions 物件。寫入 Redshift 目標時設定 upsert 操作的選項集。
AmazonRedshiftTarget 結構
指定 Amazon Redshift 目標。
欄位
-
Name
– UTF-8 字串,需符合Custom string pattern #61。Amazon Redshift 目標的名稱。
-
Data
– AmazonRedshiftNodeData 物件。指定 Amazon Redshift 目標節點的資料。
-
Inputs
:UTF-8 字串陣列,不可小於 1,也不可超過 1 個字串。輸入到資料目標的節點。
UpsertRedshiftTargetOptions 結構
寫入 Redshift 目標時設定 upsert 操作的選項。
欄位
-
TableLocation
– UTF-8 字串,需符合Custom string pattern #59。Redshift 資料表的實體位置。
-
ConnectionName
– UTF-8 字串,需符合Custom string pattern #59。用來寫入 Redshift 的連線名稱。
-
UpsertKeys
– UTF-8 字串陣列。用於確定是執行更新還是插入的金鑰。
S3CatalogTarget 結構
指定使用 Data Catalog 寫入 Amazon S3 AWS Glue 的資料目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3GlueParquetTarget 結構
指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入的單一 Amazon S3 路徑。
-
Compression
– UTF-8 字串 (有效值:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
CatalogSchemaChangePolicy 結構
可以針對爬蟲程式指定更新行為的政策。
欄位
-
EnableUpdateCatalog
– 布林值。爬蟲程式找到變更的結構描述時是否使用指定的更新行為。
-
UpdateBehavior
– UTF-8 字串 (有效值:UPDATE_IN_DATABASE
|LOG
)。爬蟲程式找到變更結構描述時的更新行為。
S3DirectTarget 結構
指定寫入 Amazon S3 的資料目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入的單一 Amazon S3 路徑。
-
Compression
– UTF-8 字串,需符合Custom string pattern #59。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Format
– 必要:UTF-8 字串 (有效值:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。指定目標的資料輸出格式。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3HudiCatalogTarget 結構
指定在 AWS Glue Data Catalog 中寫入 Hudi 資料來源的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
AdditionalOptions
– 必要:金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定連接器的其他連接選項。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3HudiDirectTarget 結構
指定寫入 Hudi 資料來源的目標 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入 Hudi 資料來源的 Amazon S3 路徑。
-
Compression
– 必要:UTF-8 字串 (有效值:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Format
– 必要:UTF-8 字串 (有效值:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。指定目標的資料輸出格式。
-
AdditionalOptions
– 必要:金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定連接器的其他連接選項。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3DeltaCatalogTarget 結構
指定在 AWS Glue Data Catalog 中寫入 Delta Lake 資料來源的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定連接器的其他連接選項。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3DeltaDirectTarget 結構
指定寫入 Delta Lake 資料來源的目標 Amazon S3。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入 Delta Lake 資料來源的 Amazon S3 路徑。
-
Compression
– 必要:UTF-8 字串 (有效值:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Format
– 必要:UTF-8 字串 (有效值:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。指定目標的資料輸出格式。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定連接器的其他連接選項。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
DirectSchemaChangePolicy 結構
可以針對爬蟲程式指定更新行為的政策。
欄位
-
EnableUpdateCatalog
– 布林值。爬蟲程式找到變更的結構描述時是否使用指定的更新行為。
-
UpdateBehavior
– UTF-8 字串 (有效值:UPDATE_IN_DATABASE
|LOG
)。爬蟲程式找到變更結構描述時的更新行為。
-
Table
– UTF-8 字串,需符合Custom string pattern #59。指定資料庫中套用結構描述變更政策的資料表。
-
Database
– UTF-8 字串,需符合Custom string pattern #59。指定套用結構描述變更政策的資料庫。
ApplyMapping 結構
指定將資料來源中的資料屬性索引鍵映射至資料目標中資料屬性索引鍵的轉換。您可以重新命名索引鍵、修改索引鍵的資料類型,以及選擇要從資料集中捨棄哪些索引鍵。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Mapping
– 必要:一個 映射 物件。將資料來源中的資料屬性索引鍵映射至資料目標中的資料屬性索引鍵。
Mapping 結構
指定資料屬性索引鍵的映射。
欄位
-
ToKey
– UTF-8 字串,需符合Custom string pattern #59。套用映射之後,資料行應具備的名稱。可以與
FromPath
相同。 -
FromPath
– UTF-8 字串陣列。要修改的資料表或資料行。
-
FromType
– UTF-8 字串,需符合Custom string pattern #59。要修改之資料的類型。
-
ToType
– UTF-8 字串,需符合Custom string pattern #59。要修改資料的資料類型。
-
Dropped
– 布林值。若此值為 true,則移除資料行。
-
Children
– 一個 映射 物件陣列。僅適用於巢套資料結構。如果要變更父結構,同時變更其某個子結構,則可以填寫此資料結構。它也是
Mapping
,但其FromPath
將是父結構的FromPath
,再加上來自此結構的FromPath
。對於子部件,假設您的結構如下:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
您可以指定看起來類似如下的
Mapping
:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 結構
指定選擇要保留之資料屬性索引鍵的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
– 必要:UTF-8 字串陣列。資料結構中變數的 JSON 路徑。
DropFields 結構
指定選擇要捨棄之資料屬性索引鍵的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
– 必要:UTF-8 字串陣列。資料結構中變數的 JSON 路徑。
RenameField 結構
指定重新命名單一資料屬性索引鍵的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
SourcePath
– 必要:UTF-8 字串陣列。來源資料的資料結構中變數的 JSON 路徑。
-
TargetPath
– 必要:UTF-8 字串陣列。目標資料的資料結構中變數的 JSON 路徑。
Spigot 結構
指定將資料範例寫入 Amazon S3 儲存貯體的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。Amazon S3 中的路徑,其中轉換會將記錄子集從資料集寫入 Amazon S3 儲存貯體中的 JSON 檔案。
-
Topk
– 數字 (整數),不可大於 100。指定要從資料集開始寫入的記錄數目。
-
Prob
– 數字 (雙字),不可大於 1。挑選任何給定記錄的概率 (最大值為 1 的小數值)。值 1 表示從資料集讀取的每一列應包含在範例輸出中。
Join 結構
使用指定資料屬性索引鍵上的比較片語,將兩個資料集聯結為一個資料集。可以使用內、外、左、右、左半、左反聯結。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 2 或超過 2 個字串。由其節點名稱識別的資料輸入。
-
JoinType
– 必要:UTF-8 字串 (有效值:equijoin="EQUIJOIN"
|left="LEFT"
|right="RIGHT"
|outer="OUTER"
|leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
)。指定要在資料集上執行的聯結類型。
-
Columns
– 必要:JoinColumn 物件陣列,不小於 2 個結構,也不大於 2 個結構。要聯結的兩個資料行的清單。
JoinColumn 結構
指定要聯結的資料行。
欄位
-
From
– 必要:UTF-8 字串,需符合Custom string pattern #59。要接合的資料行。
-
Keys
– 必要:UTF-8 字串陣列。要聯結之資料行的索引鍵。
SplitFields 結構
指定將資料屬性索引鍵分割成兩個 DynamicFrames
的轉換。輸出是 DynamicFrames
的集合:一個具有所選資料屬性索引鍵,另一個具有其餘資料屬性索引鍵。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
– 必要:UTF-8 字串陣列。資料結構中變數的 JSON 路徑。
SelectFromCollection 結構
指定從 DynamicFrames
的集合選擇一個 DynamicFrame
的轉換。輸出為所選的 DynamicFrame
。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Index
– 必要:數字 (整數),不可大於 None (無)。要選取的 DynamicFrame 的索引。
FillMissingValues 結構
指定如下轉換:尋找遺失值之資料集中的記錄,並新增具有由插補決定值的新欄位。輸入資料集會用於訓練機器學習模型,以決定遺失值應該是什麼。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
ImputedPath
– 必要:UTF-8 字串,需符合Custom string pattern #59。輸入資料集的資料結構中變數的 JSON 路徑。
-
FilledPath
– UTF-8 字串,需符合Custom string pattern #59。填充資料集之資料結構中變數的 JSON 路徑。
Filter 結構
指定根據篩選條件將資料集分割成兩個的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
LogicalOperator
– 必要:UTF-8 字串 (有效值:AND
|OR
)。透過比較索引鍵值與指定值來篩選列的運算子。
-
Filters
– 必要:一個 FilterExpression 物件。指定篩選條件表達式。
FilterExpression 結構
指定篩選條件表達式。
欄位
-
Operation
– 必要:UTF-8 字串 (有效值:EQ
|LT
|GT
|LTE
|GTE
|REGEX
|ISNULL
)。要在表達式中執行的操作類型。
-
Negated
– 布林值。表達式是否被否定。
-
Values
– 必要:一個 FilterValue 物件。篩選條件值清單。
FilterValue 結構
代表在 FilterExpression
的值清單中的單一項目。
欄位
-
Type
– 必要:UTF-8 字串 (有效值:COLUMNEXTRACTED
|CONSTANT
)。篩選條件值的類型。
-
Value
– 必要:UTF-8 字串陣列。要關聯的值。
CustomCode 結構
指定使用您提供的自訂程式碼來執行資料轉換的轉換。輸出是 DynamicFrames 的集合。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,至少要有 1 個字串。由其節點名稱識別的資料輸入。
-
Code
– 必要:UTF-8 字串,需符合Custom string pattern #52。用來執行資料轉換的自訂程式碼。
-
ClassName
– 必要:UTF-8 字串,需符合Custom string pattern #59。為自訂程式碼節點類別定義的名稱。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂代碼轉換的資料架構。
SparkSQL 結構
指定轉換,其中輸入使用 Spark SQL 語法的 SQL 查詢來轉換資料。輸出是單個 DynamicFrame
。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,至少要有 1 個字串。由其節點名稱識別的資料輸入。您可以將表名與 SQL 查詢中使用的每個輸入節點相關聯。您選擇的名稱必須符合 Spark SQL 命名限制。
-
SqlQuery
– 必要:UTF-8 字串,需符合Custom string pattern #60。必須使用 Spark SQL 語法並返回單個資料集的 SQL 查詢。
-
SqlAliases
– 必要:一個 SqlAlias 物件。別名清單。別名允許您指定要在 SQL 中為給定輸入使用的名稱。例如,您有名為 "MyDataSource" 的資料來源。如果您指定
From
為 MyDataSource,以及指定Alias
為 SqlName,則在 SQL 中可以執行如下操作:select * from SqlName
並從 MyDataSource 取得資料。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 SparkSQL 轉換的資料架構。
SqlAlias 結構
代表在 SqlAliases
的值清單中的單一項目。
欄位
-
From
– 必要:UTF-8 字串,需符合Custom string pattern #58。資料表或其中的資料行。
-
Alias
– 必要:UTF-8 字串,需符合Custom string pattern #59。提供給資料表或其中之資料行的暫時名稱。
DropNullFields 結構
指定轉換,如果資料行中的所有值都為「null」(空),則從資料集中刪除此行。根據預設, AWS Glue Studio 會辨識 Null 物件,但一些值,例如空字串、「null」字串、-1 整數或其他預留位置,例如零,不會自動辨識為 Null。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
NullCheckBoxList
– NullCheckBoxList 物件。表示某些值是否被識別為空值以進行移除的結構。
-
NullTextList
– NullValueField 物件陣列,不可超過 50 個結構。指定 NullValueField 結構清單的結構,該結構代表自訂的空值,例如零或作為資料集唯一的空預留位置使用的其他值。
此
DropNullFields
轉換只會在空預留位置和資料類型的值都符合資料時才移除自訂的空值。
NullCheckBoxList 結構
表示某些值是否被識別為空值以進行移除。
欄位
-
IsEmpty
– 布林值。指定一個空字串被視為空值。
-
IsNullString
– 布林值。指定拼寫為單字 null 的值被視為空值。
-
IsNegOne
– 布林值。指定 -1 的整數值被視為空值。
NullValueField 結構
代表自訂的空值,例如零或用作資料集唯一的空預留位置的其他值。
欄位
-
Value
– 必要:UTF-8 字串,需符合Custom string pattern #59。空預留位置的值。
-
Datatype
– 必要:Datatype 物件。值的資料類型。
Datatype 結構
代表該值的資料類型的結構。
欄位
-
Id
– 必要:UTF-8 字串,需符合Custom string pattern #58。值的資料類型。
-
Label
– 必要:UTF-8 字串,需符合Custom string pattern #58。指派給資料類型的標籤。
Merge 結構
指定根據指定的主索引鍵來合併此 DynamicFrame
與暫存 DynamicFrame
以識別記錄的轉換。重複的記錄 (具有相同主索引鍵的記錄) 不會被刪除重複資料。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 2 或超過 2 個字串。由其節點名稱識別的資料輸入。
-
Source
– 必要:UTF-8 字串,需符合Custom string pattern #58。來源
DynamicFrame
,它將與暫存DynamicFrame
合併。 -
PrimaryKeys
– 必要:UTF-8 字串陣列。要從來源和暫存動態影格比對記錄的主索引鍵欄位清單。
Union 結構
指定將兩個或多個資料集中的列合併為單一結果的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 2 或超過 2 個字串。輸入到轉換的節點 ID。
-
UnionType
– 必要:UTF-8 字串 (有效值:ALL
|DISTINCT
)。指示 Union 轉換的類型。
指定
ALL
以將資料來源中的所有列聯結至產生的 DynamicFrame。產生的聯集不會移除重複的資料列。指定
DISTINCT
以刪除產生的 DynamicFrame 中的重複列。
PIIDetection 結構
指定用於標識、刪除或遮罩 PII 資料的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到轉換的節點 ID。
-
PiiType
– 必要:UTF-8 字串 (有效值:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
)。指示 PIIDetection 轉換的類型。
-
EntityTypesToDetect
– 必要:UTF-8 字串陣列。指示 PIIDetection 轉換將標識為 PII 資料的實體類型。
PII 類型實體包括:PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER,USA_DRIVING_LICENSE
-
OutputColumnName
– UTF-8 字串,需符合Custom string pattern #59。針對將在行內包含偵測到的任何實體類型,指示輸出列名。
-
SampleFraction
– 數字 (雙字),不可大於 1。指示掃描 PII 實體時要採樣的資料部分。
-
ThresholdFraction
– 數字 (雙字),不可大於 1。針對要將列標識為 PII 資料時,指示必須滿足的資料部分。
-
MaskValue
– UTF-8 字串,長度不可超過 256 個位元組,且需符合 Custom string pattern #56。針對偵測到的實體指示替換值。
Aggregate 結構
指定轉換,依照所選欄位來分組行,並依照指定函數計算彙總值。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。指定欄位和行作為彙總轉換輸入。
-
Groups
– 必要:UTF-8 字串陣列。指定分組所依據的欄位。
-
Aggs
– 必要:AggregateOperation 物件陣列,不小於 1 個結構,也不大於 30 個結構。指定要在指定欄位執行的彙總函數。
DropDuplicates 結構
指定用於從資料集刪除重複資料行的轉換。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。轉換節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。由其節點名稱識別的資料輸入。
-
Columns
– UTF-8 字串陣列。重複時要合併或刪除的列名。
GovernedCatalogTarget 結構
指定使用 Data Catalog 寫入 Amazon S3 AWS Glue 的資料目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料目標的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
– UTF-8 字串陣列。指定使用一系列索引鍵的原生分割。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫中資料表的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要寫入之資料庫的名稱。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對受管目錄指定更新行為的政策。
GovernedCatalogSource 結構
指定受管 Data Catalog 中的 AWS Glue 資料存放區。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料存放區的名稱。
-
Database
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫。
-
Table
– 必要:UTF-8 字串,需符合Custom string pattern #59。要讀取的資料庫資料表。
-
PartitionPredicate
– UTF-8 字串,需符合Custom string pattern #59。滿足此述詞的分割區會被刪除。這些分割區中仍在保留期間內的檔案不會被刪除。設定為
""
– 預設為空值。 -
AdditionalOptions
– S3SourceAdditionalOptions 物件。指定其他連接選項。
AggregateOperation 結構
指定執行彙總轉換中彙總所需的參數集。
欄位
-
Column
– 必要:UTF-8 字串陣列。指定要套用彙總函數的資料集上的資料欄。
-
AggFunc
–必要:UTF-8 字串 (有效值:avg
|countDistinct
|count
|first
|last
|kurtosis
|max
|min
|skewness
|stddev_samp
|stddev_pop
|sum
|sumDistinct
|var_samp
|var_pop
)。指定要套用的彙總函數。
可能的彙總函數包括:avg countDistinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop
GlueSchema 結構
當無法由 AWS Glue決定架構時,指定使用者定義的架構。
欄位
-
Columns
– 一個 GlueStudioSchemaColumn 物件陣列。指定組成 AWS Glue 結構描述的欄定義。
GlueStudioSchemaColumn 結構
在 AWS Glue 結構描述定義中指定單一資料欄。
欄位
-
Name
– 必要:UTF-8 字串,長度不可超過 1024 個位元組,且需符合 Single-line string pattern。AWS Glue Studio 結構描述中的資料欄名稱。
-
Type
– UTF-8 字串,長度不可超過 131072 個位元組,需符合Single-line string pattern。AWS Glue Studio 結構描述中此欄的 hive 類型。
GlueStudioColumn 結構
在 AWS Glue Studio 中指定單一資料欄。
欄位
-
Key
– 必要:UTF-8 字串,需符合Custom string pattern #59。AWS Glue Studio 中資料欄的索引鍵。
-
FullPath
– 必要:UTF-8 字串陣列。TThe中資料欄的完整 URL。 AWS Glue
-
Type
– 必要:UTF-8 字串 (有效值:array="ARRAY"
|bigint="BIGINT"
|bigint array="BIGINT_ARRAY"
|binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
|float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
|smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
|string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
|null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
)。TThe中資料欄的類型。 AWS Glue
-
Children
– 結構的陣列。TThe中父欄的子項。 AWS Glue
DynamicTransform 結構
指定執行動態轉換所需的參數集。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #59。指定動態轉換的名稱。
-
TransformName
– 必要:UTF-8 字串,需符合Custom string pattern #59。指定動態轉換的名稱,如其在 AWS Glue Studio 視覺化編輯器中所示。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。指定所需動態轉換的輸入。
-
Parameters
– 一個 TransformConfigParameter 物件陣列。指定動態轉換的參數。
-
FunctionName
– 必要:UTF-8 字串,需符合Custom string pattern #59。指定動態轉換的函數名稱。
-
Path
– 必要:UTF-8 字串,需符合Custom string pattern #59。指定動態轉換來源檔案和組態檔案的路徑。
-
Version
– UTF-8 字串,需符合Custom string pattern #59。此欄位未使用,且會在未來版本中移除。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定動態轉換的資料結構描述。
TransformConfigParameter 結構
指定動態轉換組態檔案的參數。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #59。指定動態轉換組態檔案的參數名稱。
-
Type
– 必要:UTF-8 字串 (有效值:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
)。指定動態轉換組態檔案的參數類型。
-
ValidationRule
– UTF-8 字串,需符合Custom string pattern #59。指定動態轉換組態檔案的驗證規則。
-
ValidationMessage
– UTF-8 字串,需符合Custom string pattern #59。指定動態轉換組態檔案的驗證訊息。
-
Value
– UTF-8 字串陣列。指定動態轉換組態檔案的參數值。
-
ListType
– UTF-8 字串 (有效值:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
)。指定動態轉換組態檔案的參數類型清單。
-
IsOptional
– 布林值。指定參數是否為選用或未在動態轉換組態檔案中。
EvaluateDataQuality 結構
指定資料品質評估標準。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料品質評估的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。資料品質評估的輸入。
-
Ruleset
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 65536 個位元組,且需符合Custom string pattern #57。資料品質評估的規則集。
-
Output
– UTF-8 字串 (有效值:PrimaryInput
|EvaluationResults
)。資料品質評估的是輸出。
-
PublishingOptions
– DQResultsPublishingOptions 物件。設定結果發佈方式的選項。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions 物件。設定資料品質評估失敗時如何停止任務的選項。
DQResultsPublishingOptions 結構
設定資料品質評估結果發佈方式的選項。
欄位
-
EvaluationContext
– UTF-8 字串,需符合Custom string pattern #58。評估的內容。
-
ResultsS3Prefix
– UTF-8 字串,需符合Custom string pattern #59。附加到結果前面的 Amazon S3 字首。
-
CloudWatchMetricsEnabled
– 布林值。啟用資料品質結果的指標。
-
ResultsPublishingEnabled
– 布林值。啟用發佈資料品質結果。
DQStopJobOnFailureOptions 結構
設定資料品質評估失敗時如何停止任務的選項。
欄位
-
StopJobOnFailureTiming
– UTF-8 字串 (有效值:Immediate
|AfterDataLoad
)。資料品質評估失敗時停止任務的時機。選項包括 Immediate (立即) 或 AfterDataLoad (載入資料後)。
EvaluateDataQualityMultiFrame 結構
指定資料品質評估標準。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。資料品質評估的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,至少要有 1 個字串。資料品質評估的輸入。此清單中的第一個輸入是主資料來源。
-
AdditionalDataSources
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #61。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
除主資料來源以外的所有資料來源的別名。
-
Ruleset
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 65536 個位元組,且需符合Custom string pattern #57。資料品質評估的規則集。
-
PublishingOptions
– DQResultsPublishingOptions 物件。設定結果發佈方式的選項。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串 (有效值:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
)。每個值都是 UTF-8 字串。
設定轉換執行期行為的選項。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions 物件。設定資料品質評估失敗時如何停止任務的選項。
配方結構
在 AWS Glue 任務中使用 AWS Glue DataBrew 配方的 AWS Glue Studio 節點。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。AWS Glue Studio 節點的名稱。
-
Inputs
– 必要:UTF-8 字串的陣列,不可小於 1 或超過 1 個字串。作為配方節點輸入的節點,由 ID 識別。
-
RecipeReference
– RecipeReference 物件。節點使用的 DataBrew 配方參考。
-
RecipeSteps
– 一個 RecipeStep 物件陣列。轉換配方節點中使用的步驟。
RecipeReference 結構
AWS Glue DataBrew 配方的參考。
欄位
-
RecipeArn
– 必要:UTF-8 字串,需符合Custom string pattern #59。DataBrew 配方的 ARN。
-
RecipeVersion
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 16 個位元組。DataBrew 配方的RecipeVersion。
SnowflakeNodeData 結構
指定 AWS Glue Studio 中 Snowflake 節點的組態。
欄位
-
SourceType
– UTF-8 字串,需符合Custom string pattern #58。指定如何指定擷取的資料。有效值:
"table"
、"query"
。 -
Connection
– 選項 物件。指定 Snowflake 端點 AWS Glue 的資料型錄連線。
-
Schema
– UTF-8 字串。指定節點使用的 Snowflake 資料庫結構描述。
-
Table
– UTF-8 字串。指定節點使用的 Snowflake 資料表。
-
Database
– UTF-8 字串。指定節點使用的 Snowflake 資料庫。
-
TempDir
– UTF-8 字串,需符合Custom string pattern #59。目前未使用。
-
IamRole
– 選項 物件。目前未使用。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,需符合 Custom string pattern #59。
每個值都是 UTF-8 字串,需符合 Custom string pattern #59。
指定傳遞至 Snowflake 連接器的其他選項。如果在此節點的其他位置指定了選項,這會具有優先順序。
-
SampleQuery
– UTF-8 字串。SQL 字串,用於擷取具有
query
sourcetype 的資料。 -
PreAction
– UTF-8 字串。SQL 字串會在 Snowflake 連接器執行其標準動作之前執行。
-
PostAction
– UTF-8 字串。SQL 字串會在 Snowflake 連接器執行其標準動作之後執行。
-
Action
– UTF-8 字串。指定在使用預先存在的資料寫入資料表時要採取的動作。有效值:
append
、merge
、truncate
、drop
。 -
Upsert
– 布林值。當動作為
append
時使用。指定資料列已存在時的解析行為。如果為 true,將更新預先存在的資料列。如果為 false,將插入這些資料列。 -
MergeAction
– UTF-8 字串,需符合Custom string pattern #58。指定合併動作。有效值:
simple
、custom
。如果為簡單,合併行為由MergeWhenMatched
和MergeWhenNotMatched
定義。如果為自訂,由MergeClause
定義。 -
MergeWhenMatched
– UTF-8 字串,需符合Custom string pattern #58。指定合併時如何解析與預先存在的資料相符的記錄。有效值:
update
、delete
。 -
MergeWhenNotMatched
– UTF-8 字串,需符合Custom string pattern #58。指定合併時如何處理與預先存在的資料不相符的記錄。有效值:
insert
、none
。 -
MergeClause
– UTF-8 字串。指定自訂合併行為的 SQL 陳述式。
-
StagingTable
– UTF-8 字串。執行
merge
或 upsertappend
動作時使用的暫存資料表名稱。資料會寫入此資料表,然後由產生的後置動作移至table
。 -
SelectedColumns
– 一個 選項 物件陣列。在偵測合併和更新插入相符項時,指定合併起來用於識別記錄的資料欄。具有
value
、label
和description
金鑰的結構清單。每個結構都描述了一個資料欄。 -
AutoPushdown
– 布林值。指定是否啟用自動查詢下推。如果下推已啟用,則在 Spark 上執行查詢時,若查詢的一部分可以「向下推」到 Snowflake 伺服器,它便會被下推。這可改善某些查詢的效能。
-
TableSchema
– 一個 選項 物件陣列。手動定義節點的目標結構描述。具有
value
、label
和description
金鑰的結構清單。每個結構都定義了一個資料欄。
SnowflakeSource 結構
指定 Snowflake 資料來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Snowflake 資料來源的名稱。
-
Data
– 必要:SnowflakeNodeData 物件。Snowflake 資料來源的組態。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定輸出資料的使用者定義結構描述。
SnowflakeTarget 結構
指定 Snowflake 目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。Snowflake 目標的名稱。
-
Data
– 必要:SnowflakeNodeData 物件。指定 Snowflake 目標節點的資料。
-
Inputs
:UTF-8 字串陣列,不可小於 1,也不可超過 1 個字串。輸入到資料目標的節點。
ConnectorDataSource 結構
指定使用標準連線選項產生的來源。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。此來源節點的名稱。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。connectionType
提供給基礎 AWS Glue 程式庫的 。此節點類型支援下列連線類型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必要:金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串。
每個值都是 UTF-8 字串。
針對節點指定連線選項的對應。您可以在 AWS Glue 文件的連線參數區段中找到對應連線類型的標準連線選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定此來源的資料結構描述。
ConnectorDataTarget 結構
指定使用標準連線選項產生的目標。
欄位
-
Name
– 必要:UTF-8 字串,需符合Custom string pattern #61。此目標節點的名稱。
-
ConnectionType
– 必要:UTF-8 字串,需符合Custom string pattern #59。connectionType
提供給基礎 AWS Glue 程式庫的 。此節點類型支援下列連線類型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必要:金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串。
每個值都是 UTF-8 字串。
針對節點指定連線選項的對應。您可以在 AWS Glue 文件的連線參數區段中找到對應連線類型的標準連線選項。
-
Inputs
:UTF-8 字串陣列,不可小於 1,也不可超過 1 個字串。輸入到資料目標的節點。
RecipeStep 結構
AWS Glue Studio 資料準備配方節點中使用的配方步驟。
欄位
-
Action
– 必要:RecipeAction 物件。配方步驟的轉換動作。
-
ConditionExpressions
– 一個 ConditionExpression 物件陣列。配方步驟的條件表達式。
RecipeAction 結構
AWS Glue Studio 資料準備配方節點中定義的動作。
欄位
-
Operation
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組,且需符合 Custom string pattern #54。配方動作的操作。
-
Parameters
– 金鑰值對的映射陣列。每個金鑰都是 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組,需符合 Custom string pattern #55。
每個值都是 UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 32768 個位元組。
配方動作的參數。
ConditionExpression 結構
AWS Glue Studio 資料準備配方節點中定義的條件表達式。
欄位
-
Condition
– 必要:UTF-8 字串,長度不可小於 1 個位元組,也不可以超過 128 個位元組,且需符合 Custom string pattern #54。條件表達式的條件。
-
Value
– UTF-8 字串,長度不可超過 1024 個位元組。條件表達式的值。
-
TargetColumn
– 必要:UTF-8 字串,長度不可小於 1 個位元組或超過 1024 個位元組。條件表達式的目標欄。