本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
視覺工作 API
Visual 工作API可讓您使用代表工作視覺化組態的JSON物件 AWS Glue API來建立資料整合 AWS Glue 工作。
提供給建立或更新作業的CodeGenConfigurationNodes
清單,API以便DAG在 AWS Glue Studio 中註冊建立的工作並產生相關聯的程式碼。
資料類型
CodeGenConfigurationNode 結構
CodeGenConfigurationNode
列舉所有有效的節點類型。僅可以填入一個成員變數。
欄位
-
AthenaConnectorSource
– AthenaConnectorSource 物件。指定 Amazon Athena 資料來源的連接器。
-
JDBCConnectorSource
– JDBCConnectorSource 物件。指定JDBC資料來源的連接器。
-
SparkConnectorSource
– SparkConnectorSource 物件。指定 Apache Spark 資料來源的連接器。
-
CatalogSource
– CatalogSource 物件。指定「資料目錄」中的 AWS Glue 資料倉庫。
-
RedshiftSource
– RedshiftSource 物件。指定 Amazon Redshift 資料存放區。
-
S3CatalogSource
– S3 CatalogSource 物件。在資料目錄中指定 Amazon S3 資 AWS Glue 料存放區。
-
S3CsvSource
– S3 CsvSource 物件。指定存放在 Amazon S3 中的命令分隔值 (CSV) 資料存放區。
-
S3JsonSource
– S3 JsonSource 物件。指定存放在 Amazon S3 中的JSON資料存放區。
-
S3ParquetSource
– S3 ParquetSource 物件。指定存放在 Amazon S3 中的 Apache Parquet 資料存放區。
-
RelationalCatalogSource
– RelationalCatalogSource 物件。指定資料目錄中的關聯式目錄資 AWS Glue 料倉庫。
-
DynamoDBCatalogSource
– D 系列ynamoDBCatalog來源 物件。在資料DBC目錄中指定 Dynamo 目錄資 AWS Glue 料存放區。
-
JDBCConnectorTarget
– JDBCConnectorTarget 物件。指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
-
SparkConnectorTarget
– SparkConnectorTarget 物件。指定使用 Apache Spark 連接器的目標。
-
CatalogTarget
– BasicCatalogTarget 物件。指定使用「 AWS Glue 資料目錄」表格的目標。
-
RedshiftTarget
– RedshiftTarget 物件。指定使用 Amazon Redshift 的目標。
-
S3CatalogTarget
– S3 CatalogTarget 物件。指定使用資料目錄寫入 Amazon S3 的 AWS Glue 資料目標。
-
S3GlueParquetTarget
– S3 GlueParquetTarget 物件。指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
-
S3DirectTarget
– S3 DirectTarget 物件。指定寫入 Amazon S3 的資料目標。
-
ApplyMapping
– ApplyMapping 物件。指定將資料來源中的資料屬性索引鍵映射至資料目標中資料屬性索引鍵的轉換。您可以重新命名索引鍵、修改索引鍵的資料類型,以及選擇要從資料集中捨棄哪些索引鍵。
-
SelectFields
– SelectFields 物件。指定選擇要保留之資料屬性索引鍵的轉換。
-
DropFields
– DropFields 物件。指定選擇要捨棄之資料屬性索引鍵的轉換。
-
RenameField
– RenameField 物件。指定重新命名單一資料屬性索引鍵的轉換。
-
Spigot
– Spigot 物件。指定將資料範例寫入 Amazon S3 儲存貯體的轉換。
-
Join
– Join 物件。使用指定資料屬性索引鍵上的比較片語,將兩個資料集聯結為一個資料集。可以使用內、外、左、右、左半、左反聯結。
-
SplitFields
– SplitFields 物件。指定將資料屬性索引鍵分割成兩個
DynamicFrames
的轉換。輸出是DynamicFrames
的集合:一個具有所選資料屬性索引鍵,另一個具有其餘資料屬性索引鍵。 -
SelectFromCollection
– SelectFromCollection 物件。指定從
DynamicFrames
的集合選擇一個DynamicFrame
的轉換。輸出為所選的DynamicFrame
。 -
FillMissingValues
– FillMissingValues 物件。指定如下轉換:尋找遺失值之資料集中的記錄,並新增具有由插補決定值的新欄位。輸入資料集會用於訓練機器學習模型,以決定遺失值應該是什麼。
-
Filter
– Filter 物件。指定根據篩選條件將資料集分割成兩個的轉換。
-
CustomCode
– CustomCode 物件。指定使用您提供的自訂程式碼來執行資料轉換的轉換。輸出是的集合 DynamicFrames。
-
SparkSQL
– 火花 SQL 物件。指定轉換,您可以在其中輸入使用 Spark SQL 語法來轉換資料的SQL查詢。輸出是單個
DynamicFrame
。 -
DirectKinesisSource
– DirectKinesisSource 物件。指定直接的 Amazon Kinesis 資料來源。
-
DirectKafkaSource
– DirectKafkaSource 物件。指定 Apache Kafka 資料存放區。
-
CatalogKinesisSource
– CatalogKinesisSource 物件。在資料目錄中指定 Kinesis AWS Glue 資料來源。
-
CatalogKafkaSource
– CatalogKafkaSource 物件。指定 Data Catalog 中的 Apache Kafka 資料存放區。
-
DropNullFields
– DropNullFields 物件。指定轉換,如果資料行中的所有值都為「null」(空),則從資料集中刪除此行。默認情況下, AWS Glue Studio 將識別空對象,但一些值,如空字符串,字符串是「null」,-1 個整數或其他佔位符,如零,不會自動識別為空值。
-
Merge
– Merge 物件。指定根據指定的主索引鍵來合併此
DynamicFrame
與暫存DynamicFrame
以識別記錄的轉換。重複的記錄 (具有相同主索引鍵的記錄) 不會被刪除重複資料。 -
Union
– UNION 物件。指定將兩個或多個資料集中的列合併為單一結果的轉換。
-
PIIDetection
– PIIDetection 物件。指定識別、移除或遮罩PII資料的轉換。
-
Aggregate
– Aggregate 物件。指定轉換,依照所選欄位來分組行,並依照指定函數計算彙總值。
-
DropDuplicates
– DropDuplicates 物件。指定用於從資料集刪除重複資料行的轉換。
-
GovernedCatalogTarget
– GovernedCatalogTarget 物件。指定資料目標寫入受管目錄。
-
GovernedCatalogSource
– GovernedCatalogSource 物件。指定受管 Data Catalog 中的 資料來源。
-
MicrosoftSQLServerCatalogSource
– M icrosoftSQLServer CatalogSource 物件。在資料目錄中指定 Microsoft SQL 伺服器 AWS Glue 資料來源。
-
MySQLCatalogSource
– M 系列ySQLCatalog來源 物件。在SQL資料目錄中指定我的 AWS Glue 資料來源。
-
OracleSQLCatalogSource
– O racleSQLCatalog 來源 物件。在「資料目錄」中指定 Oracle AWS Glue 資料來源。
-
PostgreSQLCatalogSource
– P 系列ostgreSQLCatalog來源 物件。在「資料目錄」中指定 Postgres SQL 資 AWS Glue 料來源。
-
MicrosoftSQLServerCatalogTarget
– M icrosoftSQLServer CatalogTarget 物件。指定使用 Microsoft 的目標SQL。
-
MySQLCatalogTarget
– M ySQLCatalog 目標 物件。指定使用「我的SQL」的目標。
-
OracleSQLCatalogTarget
– O racleSQLCatalog 目標 物件。指定使用 Oracle 的目標SQL。
-
PostgreSQLCatalogTarget
– P ostgreSQLCatalog 靶材 物件。指定使用 Postg SQL res 的目標。
-
DynamicTransform
– DynamicTransform 物件。指定使用者建立的自訂視覺化轉換。
-
EvaluateDataQuality
– EvaluateDataQuality 物件。指定資料品質評估標準。
-
S3CatalogHudiSource
– S3 CatalogHudiSource 物件。指定已在資料目錄中註冊的 Hudi AWS Glue 資料來源。資料來源必須儲存在中 Amazon S3。
-
CatalogHudiSource
– CatalogHudiSource 物件。指定已在資料目錄中註冊的 Hudi AWS Glue 資料來源。
-
S3HudiSource
– S3 HudiSource 物件。指定儲存於 Amazon S3中的 Hudi 資料來源。
-
S3HudiCatalogTarget
– S3 HudiCatalogTarget 物件。指定寫入資料目錄中 Hudi 資料來源的 AWS Glue 目標。
-
S3HudiDirectTarget
– S3 HudiDirectTarget 物件。指定寫入中 Amazon S3 Hudi 資料來源的目標。
-
S3CatalogDeltaSource
– S3 CatalogDeltaSource 物件。指定已在「資料目錄」中註冊的 Delta 湖資 AWS Glue 料來源。資料來源必須儲存在中 Amazon S3。
-
CatalogDeltaSource
– CatalogDeltaSource 物件。指定已在「資料目錄」中註冊的 Delta 湖資 AWS Glue 料來源。
-
S3DeltaSource
– S3 DeltaSource 物件。指定儲存於中的三角洲湖資料來源 Amazon S3。
-
S3DeltaCatalogTarget
– S3 DeltaCatalogTarget 物件。指定寫入「 AWS Glue 資料目錄」中 Delta Lake 資料來源的目標。
-
S3DeltaDirectTarget
– S3 DeltaDirectTarget 物件。在中指定寫入 Delta 湖資料來源的目標 Amazon S3。
-
AmazonRedshiftSource
– AmazonRedshiftSource 物件。指定在 Amazon Redshift 中寫入資料來源的目標。
-
AmazonRedshiftTarget
– AmazonRedshiftTarget 物件。指定在 Amazon Redshift 中寫入資料目標的目標。
-
EvaluateDataQualityMultiFrame
– EvaluateDataQualityMultiFrame 物件。指定資料品質評估標準。允許多個輸入資料,並會傳回動態影格集合。
-
Recipe
– Recipe 物件。指定 AWS Glue DataBrew 配方節點。
-
SnowflakeSource
– SnowflakeSource 物件。指定 Snowflake 資料來源。
-
SnowflakeTarget
– SnowflakeTarget 物件。指定寫入 Snowflake 資料來源的目標。
-
ConnectorDataSource
– ConnectorDataSource 物件。指定使用標準連線選項產生的來源。
-
ConnectorDataTarget
– ConnectorDataTarget 物件。指定使用標準連線選項產生的目標。
JDBCConnectorOptions結構
連接器的其他連接選項。
欄位
-
FilterPredicate
-UTF -8 字符串,匹配Custom string pattern #43.額外條件子句,用於篩選來源的資料。例如:
BillingCity='Mountain View'
當您使用查詢,而不是資料表名稱,您應該驗證查詢是否適用於指定的
filterPredicate
。 -
PartitionColumn
-UTF -8 字符串,匹配Custom string pattern #43.用於分割的整數資料行名稱。此選項僅適用於包含在
lowerBound
、upperBound
以及numPartitions
中。此選項的工作方式與 Spark SQL JDBC 閱讀器中的工作方式相同。 -
LowerBound
– 數字 (long),不可大於 None (無)。用來決定分割區步幅的
partitionColumn
最小值。 -
UpperBound
– 數字 (long),不可大於 None (無)。用來決定分割區步幅的
partitionColumn
最大值。 -
NumPartitions
– 數字 (long),不可大於 None (無)。分割區數。這個值,搭配
lowerBound
(包含) 及upperBound
(不含),形成用於分割partitionColumn
而產生之WHERE
子句表達式的分割區步幅。 -
JobBookmarkKeys
-UTF -8 個字符串的數組。用於排序之任務書籤索引鍵的名稱。
-
JobBookmarkKeysSortOrder
-UTF -8 字符串,匹配Custom string pattern #43.指定升冪或降冪排序順序。
-
DataTypeMapping
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 個字符串(有效值:
ARRAY
BIGINT
BINARY
|BIT
| |BLOB
|BOOLEAN
|CHAR
|CLOB
| |DATALINK
|DATE
|DECIMAL
|DISTINCT
| |DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
| |LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
| |NULL
|NUMERIC
|NVARCHAR
|OTHER
| |REAL
|REF
|REF_CURSOR
|ROWID
| |SMALLINT
|SQLXML
|STRUCT
|TIME
| |TIME_WITH_TIMEZONE
|TIMESTAMP
|TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
)。每個值為 UTF -8 字串(有效值:
DATE
STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
| |BIGDECIMAL
|BYTE
|SHORT
|DOUBLE
)。建立從資料類型到資JDBC料類型的對應的自訂資 AWS Glue 料類型對應。例如,此選項會呼叫驅動程式的JDBC
ResultSet.getString()
方法,FLOAT
將String
類型的資料欄位對"dataTypeMapping":{"FLOAT":"STRING"}
應至 Java 類型,並使用它來建立 AWS Glue 記錄。ResultSet
物件是由每個驅動程式實作,因此行為是特定於您使用的驅動程式。請參閱JDBC驅動程式的說明文件,以瞭解驅動程式如何執行轉換。
StreamingDataPreviewOptions 結構
指定與資料預覽相關的選項,以檢視資料範例。
欄位
-
PollingTime
– 數字 (長),至少為 10。輪詢時間 (以毫秒為單位)。
-
RecordPollingLimit
– 數字 (長),至少為 1。輪詢的記錄數上限。
AthenaConnectorSource 結構
指定 Amazon Athena 資料來源的連接器。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.與連接器相關聯之連線的名稱。
-
ConnectorName
— 必要:UTF-8 個字串,符合Custom string pattern #43.協助存取 Studio 中資料存 AWS Glue 放區的連接器名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.連線類型,例如 marketplace.athena 或 custom.athena,指定連線到 Amazon Athena 資料存放區。
-
ConnectionTable
-UTF -8 字符串,匹配Custom string pattern #43.資料來源中的資料表名稱。
-
SchemaName
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的 CloudWatch 日誌群組名稱。例如:
/aws-glue/jobs/output
。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 Athena 來源的資料架構。
JDBCConnectorSource結構
指定JDBC資料來源的連接器。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.與連接器相關聯之連線的名稱。
-
ConnectorName
— 必要:UTF-8 個字串,符合Custom string pattern #43.協助存取 Studio 中資料存 AWS Glue 放區的連接器名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.連接的類型,例如市場地址 .jdbc 或自定義 .jdbc,指定到數據存儲的連接。JDBC
-
AdditionalOptions
– JDBCConnectorOptions 物件。連接器的其他連接選項。
-
ConnectionTable
-UTF -8 字符串,匹配Custom string pattern #43.資料來源中的資料表名稱。
-
Query
-UTF -8 字符串,匹配Custom string pattern #44.要從中取得資料的資料表或SQL查詢。您可以指定
ConnectionTable
或query
,但不能同時指定兩者。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂JDBC來源的資料結構描述。
SparkConnectorSource 結構
指定 Apache Spark 資料來源的連接器。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.與連接器相關聯之連線的名稱。
-
ConnectorName
— 必要:UTF-8 個字串,符合Custom string pattern #43.協助存取 Studio 中資料存 AWS Glue 放區的連接器名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.連接的類型,如 marketplace.spark 或 custom.spark,指定 Apache Spark 資料存放區的連線。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 spark 來源的資料架構。
CatalogSource 結構
指定「資料目錄」中的 AWS Glue 資料倉庫。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
M ySQLCatalog 源結構
在SQL資料目錄中指定我的 AWS Glue 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
P ostgreSQLCatalog 源結構
在「資料目錄」中指定 Postgres SQL 資 AWS Glue 料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
O racleSQLCatalog 源結構
在「資料目錄」中指定 Oracle AWS Glue 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
M 型icrosoftSQLServerCatalogSource 結構
在資料目錄中指定 Microsoft SQL 伺服器 AWS Glue 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
CatalogKinesisSource 結構
在資料目錄中指定 Kinesis AWS Glue 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
StreamingOptions
– KinesisStreamingSourceOptions 物件。Kinesis 串流資料來源的其他選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。資料預覽的其他選項。
DirectKinesisSource 結構
指定直接的 Amazon Kinesis 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
StreamingOptions
– KinesisStreamingSourceOptions 物件。Kinesis 串流資料來源的其他選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。資料預覽的其他選項。
KinesisStreamingSourceOptions 結構
Amazon Kinesis 串流資料來源的其他選項。
欄位
-
EndpointUrl
-UTF -8 字符串,匹配Custom string pattern #43.Kinesis 端點URL的。
-
StreamName
-UTF -8 字符串,匹配Custom string pattern #43.Kinesis 資料串流的名稱。
-
Classification
-UTF -8 字符串,匹配Custom string pattern #43.選擇性分類。
-
Delimiter
-UTF -8 字符串,匹配Custom string pattern #43.指定分隔符號字元。
-
StartingPosition
-UTF -8 字符串(有效值:latest="LATEST"
trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
| |timestamp="TIMESTAMP"
)。Kinesis 資料串流中要從中讀取資料的起始位置。可能的值為
"latest"
、"trim_horizon"
"earliest"
、或模UTC式中格式的時間戳記字串yyyy-mm-ddTHH:MM:SSZ
(其中Z
代表具有 +/-的UTC時區偏移量。 例如:「4 月 4 日上午 8 時至 4 時」)。預設值為"latest"
。注意:只有 4.0 AWS Glue 版或更新版本才支援使用UTC格式為 startingPosition "" 的時間戳記字串的值。
-
MaxFetchTimeInMs
– 數字 (long),不可大於 None (無)。工作執行程式從 Kinesis 資料串流讀取目前批次記錄所花費的時間上限,以毫秒 (毫秒) 為單位。在這段時間內可以
GetRecords
API撥打多個電話。預設值為1000
。 -
MaxFetchRecordsPerShard
– 數字 (long),不可大於 None (無)。每個微批次在 Kinesis 資料串流中,每個碎片可擷取的最大記錄數。注意:如果串流工作已讀取 Kinesis 的額外記錄 (在相同的 Get-record 呼叫中),用戶端可能會超過此限制。如果
MaxFetchRecordsPerShard
需要嚴格,那麼它需要是MaxRecordPerRead
. 預設值為100000
。 -
MaxRecordPerRead
– 數字 (long),不可大於 None (無)。在每個 getRecords 作業中,從 Kinesis 資料串流擷取的記錄數目上限。預設值為
10000
。 -
AddIdleTimeBetweenReads
– 布林值。加入兩個連續 getRecords 作業之間的時間延遲。預設值為
"False"
。此選項僅在 Glue 2.0 及以上版本上才可設定。 -
IdleTimeBetweenReadsInMs
– 數字 (long),不可大於 None (無)。兩個連續 getRecords 操作之間的最短時間延遲,以毫秒為單位指定。預設值為
1000
。此選項僅在 Glue 2.0 及以上版本上才可設定。 -
DescribeShardInterval
– 數字 (long),不可大於 None (無)。兩次 ListShards API調用之間的最小時間間隔,以供腳本考慮重新分片。預設值為
1s
。 -
NumRetries
– 數字 (整數),不可大於 None (無)。Kinesis Data Streams API 要求的重試次數上限。預設值為
3
。 -
RetryIntervalMs
– 數字 (long),不可大於 None (無)。重試 Kinesis Data Streams 呼叫之前的冷卻期間 (以毫秒為單位指定)。API預設值為
1000
。 -
MaxRetryIntervalMs
– 數字 (long),不可大於 None (無)。Kinesis Data Streams 呼叫兩次重試之間的最大冷卻期間 (以毫秒為單位指定)。API預設值為
10000
。 -
AvoidEmptyBatches
– 布林值。避免建立空白微批次任務,方法是在批次開始之前檢查 Kinesis 資料串流中是否有未讀取的資料。預設值為
"False"
。 -
StreamArn
-UTF -8 字符串,匹配Custom string pattern #43.Kinesis 資料串流的 Amazon 資源名稱 (ARN)。
-
RoleArn
-UTF -8 字符串,匹配Custom string pattern #43.角色的 Amazon 資源名稱 (ARN) 假設使用AWS安全性權杖服務 (AWSSTS)。此角色必須具有描述或讀取 Kinesis 資料串流記錄操作的許可。存取不同帳戶中的資料串流時,您必須使用此參數。搭配
"awsSTSSessionName"
使用。 -
RoleSessionName
-UTF -8 字符串,匹配Custom string pattern #43.假定角色使用的工作階段識別元AWSSTS。存取不同帳戶中的資料串流時,您必須使用此參數。搭配
"awsSTSRoleARN"
使用。 -
AddRecordTimestamp
-UTF -8 字符串,匹配Custom string pattern #43.當此選項設定為 'true' 時,資料輸出將包含一個名為 "__src_timestamp" 的額外資料欄,其指示串流收到相應記錄的時間。預設值為 'false'。4.0 AWS Glue 版或更新版本支援此選項。
-
EmitConsumerLagMetrics
-UTF -8 字符串,匹配Custom string pattern #43.當此選項設定為 'true' 時,對於每個批次,它會發出串流接收到的最舊記錄到達時間之間的持續時間的 AWS Glue 指標。 CloudWatch該度量標準的名稱是「膠合. 驅動程序. maxConsumerLagInMs」. 預設值為 'false'。在 AWS Glue 4.0 版或更新版中支援此選項。
-
StartingTimestamp
— UTF -8 個字符串。Kinesis 資料串流中開始讀取資料之記錄的時間戳記。可能的值是模UTC式格式的時間戳記字串
yyyy-mm-ddTHH:MM:SSZ
(其中 Z 代表具有 +/-的UTC時區偏移量。 例如:「二零三年四月四日上午八時 + 八時」)。
CatalogKafkaSource 結構
指定 Data Catalog 中的 Apache Kafka 資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
StreamingOptions
– KafkaStreamingSourceOptions 物件。指定串流選項。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。指定與資料預覽相關的選項,以檢視資料範例。
DirectKafkaSource 結構
指定 Apache Kafka 資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
StreamingOptions
– KafkaStreamingSourceOptions 物件。指定串流選項。
-
WindowSize
– 數字 (整數),不可大於 None (無)。處理每個微批次的時間量。
-
DetectSchema
– 布林值。是否自動從傳入資料確定結構描述。
-
DataPreviewOptions
– StreamingDataPreviewOptions 物件。指定與資料預覽相關的選項,以檢視資料範例。
KafkaStreamingSourceOptions 結構
其他串流選項。
欄位
-
BootstrapServers
-UTF -8 字符串,匹配Custom string pattern #43.啟動程序伺服器的清單URLs,例如,如
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
. 必須在API呼叫中指定此選項,或在「資料目錄」的表格中繼資料中定義此選項。 -
SecurityProtocol
-UTF -8 字符串,匹配Custom string pattern #43.用來與代理程式通訊的協定。可能的值為
"SSL"
或"PLAINTEXT"
。 -
ConnectionName
-UTF -8 字符串,匹配Custom string pattern #43.連線的名稱。
-
TopicName
-UTF -8 字符串,匹配Custom string pattern #43.在 Apache Kafka 中指定的主題名稱。您必須指定至少 1 個
"topicName"
、"assign"
或"subscribePattern"
。 -
Assign
-UTF -8 字符串,匹配Custom string pattern #43.要取用的特定
TopicPartitions
。您必須指定至少 1 個"topicName"
、"assign"
或"subscribePattern"
。 -
SubscribePattern
-UTF -8 字符串,匹配Custom string pattern #43.識別要訂閱的主題清單的 Java regex 字串。您必須指定至少 1 個
"topicName"
、"assign"
或"subscribePattern"
。 -
Classification
-UTF -8 字符串,匹配Custom string pattern #43.選擇性分類。
-
Delimiter
-UTF -8 字符串,匹配Custom string pattern #43.指定分隔符號字元。
-
StartingOffsets
-UTF -8 字符串,匹配Custom string pattern #43.要從中讀取資料的 Kafka 主題的起始位置。可能的值為
"earliest"
或"latest"
。預設值為"latest"
。 -
EndingOffsets
-UTF -8 字符串,匹配Custom string pattern #43.批次查詢結束時的終點。可能的值是
"latest"
或指定每個結束偏移量的JSON字符串TopicPartition
。 -
PollTimeoutMs
– 數字 (long),不可大於 None (無)。在 Spark 任務執行器中從 Kafka 輪詢資料的逾時 (以毫秒為單位)。預設值為
512
。 -
NumRetries
– 數字 (整數),不可大於 None (無)。擷取 Kafka 位移失敗之前,要重試的次數。預設值為
3
。 -
RetryIntervalMs
– 數字 (long),不可大於 None (無)。重試擷取 Kafka 偏移量之前等待的時間 (毫秒)。預設值為
10
。 -
MaxOffsetsPerTrigger
– 數字 (long),不可大於 None (無)。每個觸發程序間隔所處理之偏移數目上限的速率限制。指定的偏移總數會按比例跨
topicPartitions
或不同磁碟區而分割。預設值為 null,這表示消費者讀取所有偏移,直到已知的最新偏移。 -
MinPartitions
– 數字 (整數),不可大於 None (無)。從 Kafka 讀取所需的分割區最小數量。預設值為 null,這表示 Spark 分割區的數量等於 Kafka 分割區的數量。
-
IncludeHeaders
– 布林值。是否包括 Kafka 標頭。當選項設定為「true」時,資料輸出將包含一個名為「glue_streaming_kafka_headers」的額外欄,其類型為
Array[Struct(key: String, value: String)]
。預設值為 "false"。此選項僅在 3.0 AWS Glue 版或更高版本中提供。 -
AddRecordTimestamp
-UTF -8 字符串,匹配Custom string pattern #43.當此選項設定為 'true' 時,資料輸出將包含一個名為 "__src_timestamp" 的額外資料欄,其指示主題收到相應記錄的時間。預設值為 'false'。4.0 AWS Glue 版或更新版本支援此選項。
-
EmitConsumerLagMetrics
-UTF -8 字符串,匹配Custom string pattern #43.當此選項設置為 'true' 時,對於每個批次,它將發出主題接收到的最舊記錄和到達時間之間的持續時間的 AWS Glue 指標。 CloudWatch該度量標準的名稱是「膠合. 驅動程序. maxConsumerLagInMs」. 預設值為 'false'。在 AWS Glue 4.0 版或更新版中支援此選項。
-
StartingTimestamp
— UTF -8 個字符串。Kafka 主題中開始讀取資料之記錄的時間戳記。可能的值是模UTC式格式的時間戳記字串
yyyy-mm-ddTHH:MM:SSZ
(其中 Z 代表具有 +/-的UTC時區偏移量。 例如:「二零三年四月四日上午八時 + 八時」)。只能設定
StartingTimestamp
或StartingOffsets
。
RedshiftSource 結構
指定 Amazon Redshift 資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Amazon Redshift 資料存放區的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫資料表。
-
RedshiftTmpDir
-UTF -8 字符串,匹配Custom string pattern #43.從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
TmpDirIAMRole
-UTF -8 字符串,匹配Custom string pattern #43.具有權限的IAM角色。
AmazonRedshiftSource 結構
指定 Amazon Redshift 來源。
欄位
-
Name
-UTF -8 字符串,匹配Custom string pattern #45.Amazon Redshift 來源的名稱。
-
Data
– AmazonRedshiftNodeData 物件。指定 Amazon Reshift 來源節點的資料。
AmazonRedshiftNodeData 結構
指定 Amazon Redshift 節點。
欄位
-
AccessType
-UTF -8 字符串,匹配Custom string pattern #42.Redshift 連線的存取類型。可以是直接連線或型錄連線。
-
SourceType
-UTF -8 字符串,匹配Custom string pattern #42.用來指定特定資料表是來源還是自訂查詢的來源類型。
-
Connection
– 選項 物件。Redshift 叢集的 AWS Glue 連線。
-
Schema
– 選項 物件。使用直接連線時的 Redshift 結構描述名稱。
-
Table
– 選項 物件。使用直接連線時的 Redshift 資料表名稱。
-
CatalogDatabase
– 選項 物件。使用 AWS Glue 資料目錄時資料目錄資料庫的名稱。
-
CatalogTable
– 選項 物件。使用 AWS Glue 資料目錄時的「資料目錄」表格名稱。
-
CatalogRedshiftSchema
— UTF -8 個字符串。使用資料型錄時的 Redshift 結構描述名稱。
-
CatalogRedshiftTable
— UTF -8 個字符串。要讀取的資料庫資料表。
-
TempDir
-UTF -8 字符串,匹配Custom string pattern #43.從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
IamRole
– 選項 物件。選用。連線到 S3 時使用的角色名稱。當IAM保留空白時,角色預設為工作上的角色。
-
AdvancedOptions
– 一個 AmazonRedshiftAdvancedOption 物件陣列。連線至 Redshift 叢集時的選用值。
-
SampleQuery
— UTF -8 個字符串。SQL用於在「查詢」時從 Redshift 來源獲取 SourceType數據。
-
PreAction
— UTF -8 個字符串。在執行MERGE或APPEND搭配 upsert 之前SQL使用的。
-
PostAction
— UTF -8 個字符串。在執行MERGE或APPEND搭配 upsert 之前SQL使用的。
-
Action
— UTF -8 個字符串。指定寫入 Redshift 叢集的方式。
-
TablePrefix
-UTF -8 字符串,匹配Custom string pattern #42.指定資料表的字首。
-
Upsert
– 布林值。執行時,Redshift 上使用的動作會接收. APPEND
-
MergeAction
-UTF -8 字符串,匹配Custom string pattern #42.用於確定如何處理 Redshift 接收器MERGE中的 a 時所使用的動作。
-
MergeWhenMatched
-UTF -8 字符串,匹配Custom string pattern #42.當現有記錄與新記錄相符時,用來決定 Redshift 接收器MERGE中 a 的處理方式時所使用的動作。
-
MergeWhenNotMatched
-UTF -8 字符串,匹配Custom string pattern #42.當現有記錄與新記錄不符時,用於確定 Redshift 接收器MERGE中 a 的處理方式時所使用的動作。
-
MergeClause
— UTF -8 個字符串。在自訂合併中SQL用來處理相符記錄。
-
CrawlerConnection
— UTF -8 個字符串。指定與所用型錄資料表相關聯的連線名稱。
-
TableSchema
– 一個 選項 物件陣列。指定節點的結構描述輸出陣列。
-
StagingTable
— UTF -8 個字符串。執行MERGE或使用 upsert 時所使用之暫存資料表APPEND的名稱。
-
SelectedColumns
– 一個 選項 物件陣列。執行MERGE或APPEND使用 upsert 時,用於確定匹配記錄的列名列表。
AmazonRedshiftAdvancedOption 結構
連線至 Redshift 叢集時指定選用值。
欄位
-
Key
— UTF -8 個字符串。其他連線選項的金鑰。
-
Value
— UTF -8 個字符串。其他連線選項的值。
選項結構
指定選項值。
欄位
-
Value
-UTF -8 字符串,匹配Custom string pattern #43.指定選項的值。
-
Label
-UTF -8 字符串,匹配Custom string pattern #43.指定選項的標籤。
-
Description
-UTF -8 字符串,匹配Custom string pattern #43.指定選項的描述。
S3 CatalogSource 結構
在資料目錄中指定 Amazon S3 資 AWS Glue 料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫資料表。
-
PartitionPredicate
-UTF -8 字符串,匹配Custom string pattern #43.滿足此述詞的分割區會被刪除。這些分割區中仍在保留期間內的檔案不會被刪除。設定為
""
– 預設為空值。 -
AdditionalOptions
– S3 SourceAdditionalOptions 物件。指定其他連接選項。
S3 SourceAdditionalOptions 結構
指定 Amazon S3 資料存放區的其他連線選項。
欄位
-
BoundedSize
– 數字 (long)。設定要處理之資料集的目標大小上限 (以位元組為單位)。
-
BoundedFiles
– 數字 (long)。設定要處理的檔案目標數目的上限。
S3 CsvSource 結構
指定存放在 Amazon S3 中的命令分隔值 (CSV) 資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Paths
— 必要:UTF-8 個字串的陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
-UTF -8 字符串(有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
-UTF -8 個字符串的數組。包含要排除的 UNIX 樣式全域模式JSON清單的字串。例如,「[\" **.pdf\ "]」會排除所有PDF檔案。
-
GroupSize
-UTF -8 字符串,匹配Custom string pattern #43.目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
-UTF -8 字符串,匹配Custom string pattern #43.當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要開啟包含少於 50,000 個檔案的群組功能,請將此參數設定為 inPartition ""。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。在使用 JobBookmarks解決 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後一 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項指定最後一 maxBand 秒儲存的檔案數目上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3 DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
Separator
— 必要:UTF-8 字串 (有效值:comma="COMMA"
ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
)。指定分隔符號字元。預設值為逗號:",",但您仍可指定任何其他字元。
-
Escaper
-UTF -8 字符串,匹配Custom string pattern #43.指定用於逸出的字元。此選項僅在讀取CSV檔案時使用。預設值為
none
。若啟用,後面緊接的字元會維持現狀,除了一小組眾所皆知的逸出字元 (\n
、\r
、\t
與\0
) 以外。 -
QuoteChar
— 必要:UTF-8 字串 (有效值:quote="QUOTE"
quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
| |disabled="DISABLED"
)。指定用於引用的字元。預設為雙引號:
'"'
。將之設為-1
可完全關閉引用功能。 -
Multiline
– 布林值。布林值,用以指定單項記錄是否可以跨越多行。當欄位內含引用的新行字元時,可能就會發生這種情況。若有任何記錄跨越多行,請務必將此選項設為 True。預設值為
False
,如此在剖析時會更加積極地分割檔案。 -
WithHeader
– 布林值。布林值,指定是否要將第一行做為標頭。預設值為
False
。 -
WriteHeader
– 布林值。布林值,指定是否要將標頭寫入輸入之中。預設值為
True
。 -
SkipFirst
– 布林值。布林值,指定是否要略過第一個資料行。預設值為
False
。 -
OptimizePerformance
– 布林值。Boolean 值;指定是否要使用進階SIMDCSV讀取器以及以 Apache 箭頭為基礎的單欄式記憶體格式。僅在 3.0 AWS Glue 版本中可用。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 S3 CSV 來源的資料結構描述。
D 型irectJDBCSource 結構
指定直接JDBC來源連線。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.JDBC來源連線的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.JDBC來源連線的資料庫。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.JDBC來源連線的表格。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.JDBC來源的連線名稱。
-
ConnectionType
— 必要:UTF-8 字串 (有效值:sqlserver
mysql
|oracle
|postgresql
|redshift
)。JDBC來源的連線類型。
-
RedshiftTmpDir
-UTF -8 字符串,匹配Custom string pattern #43.JDBCRedshift 來源的暫存目錄。
S3 DirectSourceAdditionalOptions 結構
指定 Amazon S3 資料存放區的其他連線選項。
欄位
-
BoundedSize
– 數字 (long)。設定要處理之資料集的目標大小上限 (以位元組為單位)。
-
BoundedFiles
– 數字 (long)。設定要處理的檔案目標數目的上限。
-
EnableSamplePath
– 布林值。設定選項啟用範例路徑。
-
SamplePath
-UTF -8 字符串,匹配Custom string pattern #43.如果啟用,則會指定範例路徑。
S3 JsonSource 結構
指定存放在 Amazon S3 中的JSON資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Paths
— 必要:UTF-8 個字串的陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
-UTF -8 字符串(有效值:gzip="GZIP"
|bzip2="BZIP2"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
-UTF -8 個字符串的數組。包含要排除的 UNIX 樣式全域模式JSON清單的字串。例如,「[\" **.pdf\ "]」會排除所有PDF檔案。
-
GroupSize
-UTF -8 字符串,匹配Custom string pattern #43.目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
-UTF -8 字符串,匹配Custom string pattern #43.當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要開啟包含少於 50,000 個檔案的群組功能,請將此參數設定為 inPartition ""。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。在使用 JobBookmarks解決 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後一 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項指定最後一 maxBand 秒儲存的檔案數目上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3 DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
JsonPath
-UTF -8 字符串,匹配Custom string pattern #43.定義JSON資料的 JsonPath 字串。
-
Multiline
– 布林值。布林值,用以指定單項記錄是否可以跨越多行。當欄位內含引用的新行字元時,可能就會發生這種情況。若有任何記錄跨越多行,請務必將此選項設為 True。預設值為
False
,如此在剖析時會更加積極地分割檔案。 -
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 S3 JSON 來源的資料結構描述。
S3 ParquetSource 結構
指定存放在 Amazon S3 中的 Apache Parquet 資料存放區。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Paths
— 必要:UTF-8 個字串的陣列。要讀取的 Amazon S3 路徑清單。
-
CompressionType
-UTF -8 字符串(有效值:snappy="SNAPPY"
lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Exclusions
-UTF -8 個字符串的數組。包含要排除的 UNIX 樣式全域模式JSON清單的字串。例如,「[\" **.pdf\ "]」會排除所有PDF檔案。
-
GroupSize
-UTF -8 字符串,匹配Custom string pattern #43.目標群組大小 (以位元組為單位)。系統會根據輸入資料大小和叢集大小來計算預設值。當輸入檔案數少於 50,000 個時,
"groupFiles"
必須設定為"inPartition"
才能讓此設定生效。 -
GroupFiles
-UTF -8 字符串,匹配Custom string pattern #43.當輸入含有超過 50,000 個檔案時,預設會開啟分組檔案。若要開啟包含少於 50,000 個檔案的群組功能,請將此參數設定為 inPartition ""。若要在超過 50,000 個檔案時停用分組,請將此參數設定為
"none"
。 -
Recurse
– 布林值。如果設定為 True,則會遞迴讀取指定路徑下所有子目錄中的檔案。
-
MaxBand
– 數字 (整數),不可大於 None (無)。此選項可控制 s3 清單可能會在多長時間 (以毫秒為單位) 後變得一致。在使用 JobBookmarks解決 Amazon S3 最終一致性時,會特別追蹤修改時間戳記落在最後一 maxBand 毫秒內的檔案。使用者大多不需要設定此選項。預設值為 900000 毫秒或 15 分鐘。
-
MaxFilesInBand
– 數字 (整數),不可大於 None (無)。此選項指定最後一 maxBand 秒儲存的檔案數目上限。如果超過此數量,系統就會略過額外的檔案,等下一個任務執行到來再處理。
-
AdditionalOptions
– S3 DirectSourceAdditionalOptions 物件。指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 S3 Parquet 來源的資料架構。
S3 DeltaSource 結構
指定儲存於中的三角洲湖資料來源 Amazon S3。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Delta Lake 來源的名稱。
-
Paths
— 必要:UTF-8 個字串的陣列。要讀取的 Amazon S3 路徑清單。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
AdditionalOptions
– S3 DirectSourceAdditionalOptions 物件。指定連接器的其他選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
S3 CatalogDeltaSource 結構
指定已在「資料目錄」中註冊的 Delta 湖資 AWS Glue 料來源。資料來源必須儲存在中 Amazon S3。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Delta Lake 資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
CatalogDeltaSource 結構
指定已在「資料目錄」中註冊的 Delta 湖資 AWS Glue 料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Delta Lake 資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
AdditionalDeltaOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Delta Lake 來源的資料結構描述。
S3 HudiSource 結構
指定儲存於 Amazon S3中的 Hudi 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Hudi 來源的名稱。
-
Paths
— 必要:UTF-8 個字串的陣列。要讀取的 Amazon S3 路徑清單。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
AdditionalOptions
– S3 DirectSourceAdditionalOptions 物件。指定連接器的其他選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
S3 CatalogHudiSource 結構
指定已在資料目錄中註冊的 Hudi AWS Glue 資料來源。Hudi 資料來源必須儲存在中 Amazon S3。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Hudi 資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
CatalogHudiSource 結構
指定已在資料目錄中註冊的 Hudi AWS Glue 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Hudi 資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
-
AdditionalHudiOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Hudi 來源的資料結構描述。
D ynamoDBCatalog 源結構
在資料目錄中指定 DynamoDB 資 AWS Glue 料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
RelationalCatalogSource 結構
指定 AWS Glue Data Catalog 中的關聯式資料庫資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料來源的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取之資料庫中資料表的名稱。
JDBCConnectorTarget結構
指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.與連接器相關聯之連線的名稱。
-
ConnectionTable
— 必要:UTF-8 個字串,符合Custom string pattern #43.資料目標中的資料表名稱。
-
ConnectorName
— 必要:UTF-8 個字串,符合Custom string pattern #43.將要使用的連接器名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.連接的類型,如市場 .jdbc 或自定義 .jdbc,指定到數據目標的連接。JDBC
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定目JDBC標的資料結構描述。
SparkConnectorTarget 結構
指定使用 Apache Spark 連接器的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
ConnectionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.Apache Spark 連接器的連線名稱。
-
ConnectorName
— 必要:UTF-8 個字串,符合Custom string pattern #43.Apache Spark 連接器的名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.連接的類型,如 marketplace.spark 或 custom.spark,指定 Apache Spark 資料存放區的連線。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
連接器的其他連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂 spark 目標的資料架構。
BasicCatalogTarget 結構
指定使用「 AWS Glue 資料目錄」表格的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。根據特定金鑰或一組金鑰,在多個分割區或碎片之間散發資料的分割區索引鍵。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.從清單中選擇包含要用作目標之資料表的資料庫。此資料庫必須存在於 Data Catalog 中。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.定義輸出資料結構描述的資料表。此資料表必須已存在於 Data Catalog 中。
M ySQLCatalog 目標結構
指定使用「我的SQL」的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
P ostgreSQLCatalog 目標結構
指定使用 Postg SQL res 的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
O racleSQLCatalog 目標結構
指定使用 Oracle 的目標SQL。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
M 型icrosoftSQLServerCatalogTarget 結構
指定使用 Microsoft 的目標SQL。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
RedshiftTarget 結構
指定使用 Amazon Redshift 的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
RedshiftTmpDir
-UTF -8 字符串,匹配Custom string pattern #43.從資料庫複製時,可用來暫存臨時資料的 Amazon S3 路徑。
-
TmpDirIAMRole
-UTF -8 字符串,匹配Custom string pattern #43.具有權限的IAM角色。
-
UpsertRedshiftOptions
– UpsertRedshiftTargetOptions 物件。寫入 Redshift 目標時設定 upsert 操作的選項集。
AmazonRedshiftTarget 結構
指定 Amazon Redshift 目標。
欄位
-
Name
-UTF -8 字符串,匹配Custom string pattern #45.Amazon Redshift 目標的名稱。
-
Data
– AmazonRedshiftNodeData 物件。指定 Amazon Redshift 目標節點的資料。
-
Inputs
— UTF -8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
UpsertRedshiftTargetOptions 結構
寫入 Redshift 目標時設定 upsert 操作的選項。
欄位
-
TableLocation
-UTF -8 字符串,匹配Custom string pattern #43.Redshift 資料表的實體位置。
-
ConnectionName
-UTF -8 字符串,匹配Custom string pattern #43.用來寫入 Redshift 的連線名稱。
-
UpsertKeys
-UTF -8 個字符串的數組。用於確定是執行更新還是插入的金鑰。
S3 CatalogTarget 結構
指定使用資料目錄寫入 Amazon S3 的 AWS Glue 資料目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 GlueParquetTarget 結構
指定以 Apache Parquet 直欄式儲存寫入 Amazon S3 的資料目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入的單一 Amazon S3 路徑。
-
Compression
-UTF -8 字符串(有效值:snappy="SNAPPY"
lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
CatalogSchemaChangePolicy 結構
可以針對爬蟲程式指定更新行為的政策。
欄位
-
EnableUpdateCatalog
– 布林值。爬蟲程式找到變更的結構描述時是否使用指定的更新行為。
-
UpdateBehavior
-UTF -8 字符串(有效值:UPDATE_IN_DATABASE
|LOG
)。爬蟲程式找到變更結構描述時的更新行為。
S3 DirectTarget 結構
指定寫入 Amazon S3 的資料目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入的單一 Amazon S3 路徑。
-
Compression
-UTF -8 字符串,匹配Custom string pattern #43.指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Format
— 必要項目:UTF-8 字串 (有效值:json="JSON"
csv="CSV"
avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
| |delta="DELTA"
)。指定目標的資料輸出格式。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 HudiCatalogTarget 結構
指定寫入資料目錄中 Hudi 資料來源的 AWS Glue 目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
AdditionalOptions
– 必要:金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 HudiDirectTarget 結構
指定寫入中 Amazon S3 Hudi 資料來源的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入 Hudi 資料來源的 Amazon S3 路徑。
-
Compression
— 必要:UTF-8 字串 (有效值:gzip="GZIP"
lzo="LZO"
|uncompressed="UNCOMPRESSED"
| |snappy="SNAPPY"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Format
— 必要項目:UTF-8 字串 (有效值:json="JSON"
csv="CSV"
avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
| |delta="DELTA"
)。指定目標的資料輸出格式。
-
AdditionalOptions
– 必要:金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 DeltaCatalogTarget 結構
指定寫入「 AWS Glue 資料目錄」中 Delta Lake 資料來源的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
S3 DeltaDirectTarget 結構
在中指定寫入 Delta 湖資料來源的目標 Amazon S3。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入 Delta Lake 資料來源的 Amazon S3 路徑。
-
Compression
— 必要:UTF-8 字串 (有效值:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。指定資料的壓縮方式。一般來說,如果資料具有標準副檔名,則不需要此項目。可能值為
"gzip"
和"bzip"
。 -
Format
— 必要項目:UTF-8 字串 (有效值:json="JSON"
csv="CSV"
avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
| |delta="DELTA"
)。指定目標的資料輸出格式。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定連接器的其他連接選項。
-
SchemaChangePolicy
– DirectSchemaChangePolicy 物件。可以針對爬蟲程式指定更新行為的政策。
DirectSchemaChangePolicy 結構
可以針對爬蟲程式指定更新行為的政策。
欄位
-
EnableUpdateCatalog
– 布林值。爬蟲程式找到變更的結構描述時是否使用指定的更新行為。
-
UpdateBehavior
-UTF -8 字符串(有效值:UPDATE_IN_DATABASE
|LOG
)。爬蟲程式找到變更結構描述時的更新行為。
-
Table
-UTF -8 字符串,匹配Custom string pattern #43.指定資料庫中套用結構描述變更政策的資料表。
-
Database
-UTF -8 字符串,匹配Custom string pattern #43.指定套用結構描述變更政策的資料庫。
ApplyMapping 結構
指定將資料來源中的資料屬性索引鍵映射至資料目標中資料屬性索引鍵的轉換。您可以重新命名索引鍵、修改索引鍵的資料類型,以及選擇要從資料集中捨棄哪些索引鍵。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Mapping
– 必要:一個 映射 物件。將資料來源中的資料屬性索引鍵映射至資料目標中的資料屬性索引鍵。
Mapping 結構
指定資料屬性索引鍵的映射。
欄位
-
ToKey
-UTF -8 字符串,匹配Custom string pattern #43.套用映射之後,資料行應具備的名稱。可以與
FromPath
相同。 -
FromPath
-UTF -8 個字符串的數組。要修改的資料表或資料行。
-
FromType
-UTF -8 字符串,匹配Custom string pattern #43.要修改之資料的類型。
-
ToType
-UTF -8 字符串,匹配Custom string pattern #43.要修改資料的資料類型。
-
Dropped
– 布林值。若此值為 true,則移除資料行。
-
Children
– 一個 映射 物件陣列。僅適用於巢套資料結構。如果要變更父結構,同時變更其某個子結構,則可以填寫此資料結構。它也是
Mapping
,但其FromPath
將是父結構的FromPath
,再加上來自此結構的FromPath
。對於子部件,假設您的結構如下:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
您可以指定看起來類似如下的
Mapping
:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 結構
指定選擇要保留之資料屬性索引鍵的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
— 必要:UTF-8 個字串的陣列。資料結構中變數的JSON路徑。
DropFields 結構
指定選擇要捨棄之資料屬性索引鍵的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
— 必要:UTF-8 個字串的陣列。資料結構中變數的JSON路徑。
RenameField 結構
指定重新命名單一資料屬性索引鍵的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
SourcePath
— 必要:UTF-8 個字串的陣列。來源資料之資料結構中變數的JSON路徑。
-
TargetPath
— 必要:UTF-8 個字串的陣列。目標資料之資料結構中變數的JSON路徑。
Spigot 結構
指定將資料範例寫入 Amazon S3 儲存貯體的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.Amazon S3 中的一種路徑,其中轉換會將資料集中的記錄子集寫入 Amazon S3 儲存貯體中的JSON檔案。
-
Topk
– 數字 (整數),不可大於 100。指定要從資料集開始寫入的記錄數目。
-
Prob
– 數字 (雙字),不可大於 1。挑選任何給定記錄的概率 (最大值為 1 的小數值)。值 1 表示從資料集讀取的每一列應包含在範例輸出中。
Join 結構
使用指定資料屬性索引鍵上的比較片語,將兩個資料集聯結為一個資料集。可以使用內、外、左、右、左半、左反聯結。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 2 個或多於 2 個字串。由其節點名稱識別的資料輸入。
-
JoinType
— 必要項目:UTF-8 字串 (有效值:equijoin="EQUIJOIN"
left="LEFT"
right="RIGHT"
|outer="OUTER"
|leftsemi="LEFT_SEMI"
| |leftanti="LEFT_ANTI"
)。指定要在資料集上執行的聯結類型。
-
Columns
– 必要:JoinColumn 物件陣列,不小於 2 個結構,也不大於 2 個結構。要聯結的兩個資料行的清單。
JoinColumn 結構
指定要聯結的資料行。
欄位
-
From
— 必要:UTF-8 個字串,符合Custom string pattern #43.要接合的資料行。
-
Keys
— 必要:UTF-8 個字串的陣列。要聯結之資料行的索引鍵。
SplitFields 結構
指定將資料屬性索引鍵分割成兩個 DynamicFrames
的轉換。輸出是 DynamicFrames
的集合:一個具有所選資料屬性索引鍵,另一個具有其餘資料屬性索引鍵。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Paths
— 必要:UTF-8 個字串的陣列。資料結構中變數的JSON路徑。
SelectFromCollection 結構
指定從 DynamicFrames
的集合選擇一個 DynamicFrame
的轉換。輸出為所選的 DynamicFrame
。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Index
– 必要:數字 (整數),不可大於 None (無)。要選取 DynamicFrame 的索引。
FillMissingValues 結構
指定如下轉換:尋找遺失值之資料集中的記錄,並新增具有由插補決定值的新欄位。輸入資料集會用於訓練機器學習模型,以決定遺失值應該是什麼。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
ImputedPath
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定之資料集之資料結構中變數的JSON路徑。
-
FilledPath
-UTF -8 字符串,匹配Custom string pattern #43.填入資料集之資料結構中變數的JSON路徑。
Filter 結構
指定根據篩選條件將資料集分割成兩個的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
LogicalOperator
— 必要:UTF-8 字串 (有效值:AND
|OR
)。透過比較索引鍵值與指定值來篩選列的運算子。
-
Filters
– 必要:一個 FilterExpression 物件。指定篩選條件表達式。
FilterExpression 結構
指定篩選條件表達式。
欄位
-
Operation
— 必要項目:UTF-8 字串 (有效值:EQ
LT
GT
|LTE
|GTE
|REGEX
| |ISNULL
)。要在表達式中執行的操作類型。
-
Negated
– 布林值。表達式是否被否定。
-
Values
– 必要:一個 FilterValue 物件。篩選條件值清單。
FilterValue 結構
代表在 FilterExpression
的值清單中的單一項目。
欄位
-
Type
— 必要:UTF-8 字串 (有效值:COLUMNEXTRACTED
|CONSTANT
)。篩選條件值的類型。
-
Value
— 必要:UTF-8 個字串的陣列。要關聯的值。
CustomCode 結構
指定使用您提供的自訂程式碼來執行資料轉換的轉換。輸出是的集合 DynamicFrames。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,至少 1 個字串。由其節點名稱識別的資料輸入。
-
Code
— 必要:UTF-8 個字串,符合Custom string pattern #36.用來執行資料轉換的自訂程式碼。
-
ClassName
— 必要:UTF-8 個字串,符合Custom string pattern #43.為自訂程式碼節點類別定義的名稱。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定自訂代碼轉換的資料架構。
火花SQL結構
指定轉換,您可以在其中輸入使用 Spark SQL 語法來轉換資料的SQL查詢。輸出是單個 DynamicFrame
。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,至少 1 個字串。由其節點名稱識別的資料輸入。您可以將資料表名稱與要在SQL查詢中使用的每個輸入節點建立關聯。您選擇的名稱必須符合 Spark SQL 命名限制。
-
SqlQuery
— 必要:UTF-8 個字串,符合Custom string pattern #44.必須使用 Spark SQL 語法並傳回單一資料集的SQL查詢。
-
SqlAliases
– 必要:一個 SqlAlias 物件。別名清單。別名可讓您指定要在指定輸入中SQL使用的名稱。例如,您有一個名為 "" MyDataSource 的資料來源。如果你指定
From
為 MyDataSource,和Alias
as SqlName,那麼在SQL你可以這樣做:select * from SqlName
並從中獲取數據 MyDataSource。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定 Spark SQL 轉換的資料結構描述。
SqlAlias 結構
代表在 SqlAliases
的值清單中的單一項目。
欄位
-
From
— 必要:UTF-8 個字串,符合Custom string pattern #42.資料表或其中的資料行。
-
Alias
— 必要:UTF-8 個字串,符合Custom string pattern #43.提供給資料表或其中之資料行的暫時名稱。
DropNullFields 結構
指定轉換,如果資料行中的所有值都為「null」(空),則從資料集中刪除此行。默認情況下, AWS Glue Studio 將識別空對象,但一些值,如空字符串,字符串是「null」,-1 個整數或其他佔位符,如零,不會自動識別為空值。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
NullCheckBoxList
– NullCheckBoxList 物件。表示某些值是否被識別為空值以進行移除的結構。
-
NullTextList
– NullValueField 物件陣列,不可超過 50 個結構。一種結構;指定結 NullValueField 構清單,代表自訂 Null 值 (例如零或其他值) 做為資料集唯一的空預留位置。
此
DropNullFields
轉換只會在空預留位置和資料類型的值都符合資料時才移除自訂的空值。
NullCheckBoxList 結構
表示某些值是否被識別為空值以進行移除。
欄位
-
IsEmpty
– 布林值。指定一個空字串被視為空值。
-
IsNullString
– 布林值。指定拼寫為單字 null 的值被視為空值。
-
IsNegOne
– 布林值。指定 -1 的整數值被視為空值。
NullValueField 結構
代表自訂的空值,例如零或用作資料集唯一的空預留位置的其他值。
欄位
-
Value
— 必要:UTF-8 個字串,符合Custom string pattern #43.空預留位置的值。
-
Datatype
– 必要:Datatype 物件。值的資料類型。
Datatype 結構
代表該值的資料類型的結構。
欄位
-
Id
— 必要:UTF-8 個字串,符合Custom string pattern #42.值的資料類型。
-
Label
— 必要:UTF-8 個字串,符合Custom string pattern #42.指派給資料類型的標籤。
Merge 結構
指定根據指定的主索引鍵來合併此 DynamicFrame
與暫存 DynamicFrame
以識別記錄的轉換。重複的記錄 (具有相同主索引鍵的記錄) 不會被刪除重複資料。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 2 個或多於 2 個字串。由其節點名稱識別的資料輸入。
-
Source
— 必要:UTF-8 個字串,符合Custom string pattern #42.來源
DynamicFrame
,它將與暫存DynamicFrame
合併。 -
PrimaryKeys
— 必要:UTF-8 個字串的陣列。要從來源和暫存動態影格比對記錄的主索引鍵欄位清單。
Union 結構
指定將兩個或多個資料集中的列合併為單一結果的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 2 個或多於 2 個字串。輸入到轉換的節點 ID。
-
UnionType
— 必要:UTF-8 字串 (有效值:ALL
|DISTINCT
)。指示 Union 轉換的類型。
指定
ALL
將資料來源中的所有列聯結至產生的列 DynamicFrame。產生的聯集不會移除重複的資料列。指
DISTINCT
定移除結果中的重複列 DynamicFrame。
PIIDetection結構
指定識別、移除或遮罩PII資料的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到轉換的節點 ID。
-
PiiType
— 必要:UTF-8 字串 (有效值:RowAudit
RowMasking
|ColumnAudit
| |ColumnMasking
)。指示PIIDetection轉換的類型。
-
EntityTypesToDetect
— 必要:UTF-8 個字串的陣列。指出PIIDetection轉換將識別為PII資料的實體類型。
PII類型實體包括:PERSONUSA_ NAMEDATE,SNN,, USA _EMAIL, _ITIN, USA _NUMBER, PASSPORT _, IP PHONE _NUMBER, BANK _ACCOUNT, _ADDRESS, MAC _, _ADDRESS, USA CPT _CODE, _ USA _ HCPCS _ _CODE, USA _ NATIONAL _CODE, DRUG _ USA _ MEDICARE _IDENTIFIER, BENEFICIARY _ _ USA _ _ HEALTH _NUMBER, INSURANCE CLAIM _, CREDIT _CARD, USA _NATIONAL_ PROVIDER _IDENTIFIER, USA DEA _NUMBER, USA _ DRIVING _ LICENSE
-
OutputColumnName
-UTF -8 字符串,匹配Custom string pattern #43.針對將在行內包含偵測到的任何實體類型,指示輸出列名。
-
SampleFraction
– 數字 (雙字),不可大於 1。指示掃描PII圖元時要取樣的資料分數。
-
ThresholdFraction
– 數字 (雙字),不可大於 1。表示必須符合才能將欄識別為PII資料的資料分數。
-
MaskValue
— UTF -8 個字串,長度不超過 256 個位元組,符合Custom string pattern #40.針對偵測到的實體指示替換值。
Aggregate 結構
指定轉換,依照所選欄位來分組行,並依照指定函數計算彙總值。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。指定欄位和行作為彙總轉換輸入。
-
Groups
— 必要:UTF-8 個字串的陣列。指定分組所依據的欄位。
-
Aggs
– 必要:AggregateOperation 物件陣列,不小於 1 個結構,也不大於 30 個結構。指定要在指定欄位執行的彙總函數。
DropDuplicates 結構
指定用於從資料集刪除重複資料行的轉換。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.轉換節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。由其節點名稱識別的資料輸入。
-
Columns
-UTF -8 個字符串的數組。重複時要合併或刪除的列名。
GovernedCatalogTarget 結構
指定使用資料目錄寫入 Amazon S3 的 AWS Glue 資料目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料目標的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
-
PartitionKeys
-UTF -8 個字符串的數組。指定使用一系列索引鍵的原生分割。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫中資料表的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要寫入之資料庫的名稱。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy 物件。可以針對受管目錄指定更新行為的政策。
GovernedCatalogSource 結構
指定受控資料目錄中的 AWS Glue 資料倉庫。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料存放區的名稱。
-
Database
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫。
-
Table
— 必要:UTF-8 個字串,符合Custom string pattern #43.要讀取的資料庫資料表。
-
PartitionPredicate
-UTF -8 字符串,匹配Custom string pattern #43.滿足此述詞的分割區會被刪除。這些分割區中仍在保留期間內的檔案不會被刪除。設定為
""
– 預設為空值。 -
AdditionalOptions
– S3 SourceAdditionalOptions 物件。指定其他連接選項。
AggregateOperation 結構
指定執行彙總轉換中彙總所需的參數集。
欄位
-
Column
— 必要:UTF-8 個字串的陣列。指定要套用彙總函數的資料集上的資料欄。
-
AggFunc
— 必要項目:UTF-8 字串 (有效值:avg
countDistinct
|count
|first
|last
| |kurtosis
|max
|min
| |skewness
|stddev_samp
|stddev_pop
| |sum
|sumDistinct
|var_samp
| |var_pop
)。指定要套用的彙總函數。
可能的聚合函數包括:平均值countDistinct,計數,第一個,最後一個,峰度,最大值,最小值,偏斜度,stddev_samp,stddev_pop,總和,變量,流行 sumDistinct
GlueSchema 結構
當無法由 AWS Glue決定架構時,指定使用者定義的架構。
欄位
-
Columns
– 一個 GlueStudioSchemaColumn 物件陣列。指定組成結構定義的資料行定 AWS Glue 義。
GlueStudioSchemaColumn 結構
指定結構定義中的單一 AWS Glue 資料行。
欄位
-
Name
— 必要:UTF-8 個字串,長度不超過 1024 個位元組,符合Single-line string pattern.AWS Glue 工作室結構描述中的資料行名稱。
-
Type
— UTF -8 個字串,長度不超過 131072 個位元組,符合. Single-line string pattern在 AWS Glue Studio 架構中此列的配置單元類型。
GlueStudioColumn 結構
在 AWS Glue工作室中指定一列。
欄位
-
Key
— 必要:UTF-8 個字串,符合Custom string pattern #43.在 AWS Glue 工作室的列的關鍵。
-
FullPath
— 必要:UTF-8 個字串的陣列。TThe充滿URL了工 AWS Glue 作室中的列。
-
Type
— 必填項目:UTF-8 個字串 (有效值:array="ARRAY"
bigint="BIGINT"
bigint array="BIGINT_ARRAY"
binary="BINARY"
binary array="BINARY_ARRAY"
boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
| |float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
|smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
)。TThe AWS Glue 工作室中的列的類型。
-
Children
– 結構的陣列。TThe AWS Glue 工作室中父專欄的子項。
DynamicTransform 結構
指定執行動態轉換所需的參數集。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定動態轉換的名稱。
-
TransformName
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定動態轉換在 AWS Glue Studio 視覺化編輯器中顯示的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。指定所需動態轉換的輸入。
-
Parameters
– 一個 TransformConfigParameter 物件陣列。指定動態轉換的參數。
-
FunctionName
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定動態轉換的函數名稱。
-
Path
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定動態轉換來源檔案和組態檔案的路徑。
-
Version
-UTF -8 字符串,匹配Custom string pattern #43.此欄位未使用,且會在未來版本中移除。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定動態轉換的資料結構描述。
TransformConfigParameter 結構
指定動態轉換組態檔案的參數。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #43.指定動態轉換組態檔案的參數名稱。
-
Type
— 必要項目:UTF-8 字串 (有效值:str="STR"
int="INT"
float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
| |null="NULL"
)。指定動態轉換組態檔案的參數類型。
-
ValidationRule
-UTF -8 字符串,匹配Custom string pattern #43.指定動態轉換組態檔案的驗證規則。
-
ValidationMessage
-UTF -8 字符串,匹配Custom string pattern #43.指定動態轉換組態檔案的驗證訊息。
-
Value
-UTF -8 個字符串的數組。指定動態轉換組態檔案的參數值。
-
ListType
-UTF -8 字符串(有效值:str="STR"
int="INT"
float="FLOAT"
|complex="COMPLEX"
| |bool="BOOL"
|list="LIST"
|null="NULL"
)。指定動態轉換組態檔案的參數類型清單。
-
IsOptional
– 布林值。指定參數是否為選用或未在動態轉換組態檔案中。
EvaluateDataQuality 結構
指定資料品質評估標準。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料品質評估的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。資料品質評估的輸入。
-
Ruleset
— 必要:UTF-8 個字串,長度不小於 1 或超過 65536 個位元組,符合. Custom string pattern #41資料品質評估的規則集。
-
Output
-UTF -8 字符串(有效值:PrimaryInput
|EvaluationResults
)。資料品質評估的是輸出。
-
PublishingOptions
– DQResultsPublishingOptions 物件。設定結果發佈方式的選項。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions 物件。設定資料品質評估失敗時如何停止任務的選項。
DQResultsPublishingOptions結構
設定資料品質評估結果發佈方式的選項。
欄位
-
EvaluationContext
-UTF -8 字符串,匹配Custom string pattern #42.評估的內容。
-
ResultsS3Prefix
-UTF -8 字符串,匹配Custom string pattern #43.附加到結果前面的 Amazon S3 字首。
-
CloudWatchMetricsEnabled
– 布林值。啟用資料品質結果的指標。
-
ResultsPublishingEnabled
– 布林值。啟用發佈資料品質結果。
DQStopJobOnFailureOptions結構
設定資料品質評估失敗時如何停止任務的選項。
欄位
-
StopJobOnFailureTiming
-UTF -8 字符串(有效值:Immediate
|AfterDataLoad
)。資料品質評估失敗時停止任務的時機。選項為「立即」或 AfterDataLoad。
EvaluateDataQualityMultiFrame 結構
指定資料品質評估標準。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.資料品質評估的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,至少 1 個字串。資料品質評估的輸入。此清單中的第一個輸入是主資料來源。
-
AdditionalDataSources
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #45.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
除主資料來源以外的所有資料來源的別名。
-
Ruleset
— 必要:UTF-8 個字串,長度不小於 1 或超過 65536 個位元組,符合. Custom string pattern #41資料品質評估的規則集。
-
PublishingOptions
– DQResultsPublishingOptions 物件。設定結果發佈方式的選項。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵是 UTF -8 字符串(有效值:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
)。每個值都是 UTF -8 個字串。
設定轉換執行期行為的選項。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions 物件。設定資料品質評估失敗時如何停止任務的選項。
配方結構
在 AWS Glue 工作中使用 AWS Glue DataBrew 配方的 AWS Glue Studio 節點。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.AWS Glue 工作室節點的名稱。
-
Inputs
— 必要:UTF-8 個字串的陣列,不小於 1 個或多於 1 個字串。作為配方節點輸入的節點,由 ID 識別。
-
RecipeReference
– RecipeReference 物件。節點所使用之 DataBrew 配方的參考。
-
RecipeSteps
– 一個 RecipeStep 物件陣列。方案節點中使用的轉換步驟。
RecipeReference 結構
一個 AWS Glue DataBrew 配方的參考。
欄位
-
RecipeArn
— 必要:UTF-8 個字串,符合Custom string pattern #43.DataBrew 配ARN方的。
-
RecipeVersion
— 必要:UTF-8 個字串,長度不小於 1 或超過 16 個位元組。DataBrew 配 RecipeVersion 方的。
SnowflakeNodeData 結構
指定 AWS Glue 工作室中雪花節點的配置。
欄位
-
SourceType
-UTF -8 字符串,匹配Custom string pattern #42.指定如何指定擷取的資料。有效值:
"table"
、"query"
。 -
Connection
– 選項 物件。指定與雪花端點的 AWS Glue 資料目錄連線。
-
Schema
— UTF -8 個字符串。指定節點使用的 Snowflake 資料庫結構描述。
-
Table
— UTF -8 個字符串。指定節點使用的 Snowflake 資料表。
-
Database
— UTF -8 個字符串。指定節點使用的 Snowflake 資料庫。
-
TempDir
-UTF -8 字符串,匹配Custom string pattern #43.目前未使用。
-
IamRole
– 選項 物件。目前未使用。
-
AdditionalOptions
– 金鑰值對的映射陣列。每個鍵都是 UTF -8 字符串,匹配Custom string pattern #43.
每個值都是 UTF -8 字串,符合Custom string pattern #43.
指定傳遞至 Snowflake 連接器的其他選項。如果在此節點的其他位置指定了選項,這會具有優先順序。
-
SampleQuery
— UTF -8 個字符串。一個SQL字符串,用來檢索與
query
源類型的數據。 -
PreAction
— UTF -8 個字符串。在 Snowflake 連接器執行其標準動作之前執行的SQL字串。
-
PostAction
— UTF -8 個字符串。在 Snowflake 連接器執行其標準動作之後執行的SQL字串。
-
Action
— UTF -8 個字符串。指定在使用預先存在的資料寫入資料表時要採取的動作。有效值:
append
、merge
、truncate
、drop
。 -
Upsert
– 布林值。當動作為
append
時使用。指定資料列已存在時的解析行為。如果為 true,將更新預先存在的資料列。如果為 false,將插入這些資料列。 -
MergeAction
-UTF -8 字符串,匹配Custom string pattern #42.指定合併動作。有效值:
simple
、custom
。如果為簡單,合併行為由MergeWhenMatched
和MergeWhenNotMatched
定義。如果為自訂,由MergeClause
定義。 -
MergeWhenMatched
-UTF -8 字符串,匹配Custom string pattern #42.指定合併時如何解析與預先存在的資料相符的記錄。有效值:
update
、delete
。 -
MergeWhenNotMatched
-UTF -8 字符串,匹配Custom string pattern #42.指定合併時如何處理與預先存在的資料不相符的記錄。有效值:
insert
、none
。 -
MergeClause
— UTF -8 個字符串。指定自訂合併行為的SQL陳述式。
-
StagingTable
— UTF -8 個字符串。執行
merge
或 upsertappend
動作時使用的暫存資料表名稱。資料會寫入此資料表,然後由產生的後置動作移至table
。 -
SelectedColumns
– 一個 選項 物件陣列。在偵測合併和更新插入相符項時,指定合併起來用於識別記錄的資料欄。具有
value
、label
和description
金鑰的結構清單。每個結構都描述了一個資料欄。 -
AutoPushdown
– 布林值。指定是否啟用自動查詢下推。如果下推已啟用,則在 Spark 上執行查詢時,若查詢的一部分可以「向下推」到 Snowflake 伺服器,它便會被下推。這可改善某些查詢的效能。
-
TableSchema
– 一個 選項 物件陣列。手動定義節點的目標結構描述。具有
value
、label
和description
金鑰的結構清單。每個結構都定義了一個資料欄。
SnowflakeSource 結構
指定 Snowflake 資料來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Snowflake 資料來源的名稱。
-
Data
– 必要:SnowflakeNodeData 物件。Snowflake 資料來源的組態。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定輸出資料的使用者定義結構描述。
SnowflakeTarget 結構
指定 Snowflake 目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.Snowflake 目標的名稱。
-
Data
– 必要:SnowflakeNodeData 物件。指定 Snowflake 目標節點的資料。
-
Inputs
— UTF -8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
ConnectorDataSource 結構
指定使用標準連線選項產生的來源。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.此來源節點的名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.的
connectionType
,如提供給基礎 AWS Glue 庫。此節點類型支援下列連線類型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必要:金鑰值對的映射陣列。每個鍵是 UTF -8 個字符串。
每個值都是 UTF -8 個字串。
針對節點指定連線選項的對應。您可以在 AWS Glue 文件的「連接參數」一節中找到對應連接類型的標準連接選項。
-
OutputSchemas
– 一個 GlueSchema 物件陣列。指定此來源的資料結構描述。
ConnectorDataTarget 結構
指定使用標準連線選項產生的目標。
欄位
-
Name
— 必要:UTF-8 個字串,符合Custom string pattern #45.此目標節點的名稱。
-
ConnectionType
— 必要:UTF-8 個字串,符合Custom string pattern #43.的
connectionType
,如提供給基礎 AWS Glue 庫。此節點類型支援下列連線類型:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必要:金鑰值對的映射陣列。每個鍵是 UTF -8 個字符串。
每個值都是 UTF -8 個字串。
針對節點指定連線選項的對應。您可以在 AWS Glue 文件的「連接參數」一節中找到對應連接類型的標準連接選項。
-
Inputs
— UTF -8 個字串的陣列,不小於 1 個或多於 1 個字串。輸入到資料目標的節點。
RecipeStep 結構
AWS Glue Studio 資料準備方案節點中使用的配方步驟。
欄位
-
Action
– 必要:RecipeAction 物件。方案步驟的轉換動作。
-
ConditionExpressions
– 一個 ConditionExpression 物件陣列。方案步驟的條件運算式。
RecipeAction 結構
AWS Glue Studio 資料準備方案節點中定義的動作。
欄位
-
Operation
— 必要:UTF-8 個字串,長度不小於 1 或超過 128 個位元組,符合Custom string pattern #38.配方動作的操作。
-
Parameters
– 金鑰值對的映射陣列。每個索引鍵都是 UTF -8 個字串,長度不小於 1 或超過 128 個位元組,符合Custom string pattern #39.
每個值為 UTF -8 個字符串,長度不小於 1 或大於 32768 字節。
配方動作的參數。
ConditionExpression 結構
AWS Glue Studio 資料準備方案節點中定義的條件運算式。
欄位
-
Condition
— 必要:UTF-8 個字串,長度不小於 1 或超過 128 個位元組,符合Custom string pattern #38.條件運算式的條件。
-
Value
-UTF -8 個字符串,長度不超過 1024 個字節。條件運算式的值。
-
TargetColumn
— 必要:UTF-8 個字串,長度不小於 1 或超過 1024 個位元組。條件運算式的目標資料欄。