翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ビジュアルジョブ API
ビジュアルジョブAPIでは、ジョブのビジュアル設定を表すJSONオブジェクト AWS Glue APIから を使用して、データ統合 AWS Glue ジョブを作成できます。
のリストCodeGenConfigurationNodes
は、作成ジョブまたは更新ジョブに提供されAPI、作成されたジョブの を AWS Glue Studio DAG に登録し、関連するコードを生成します。
データ型
CodeGenConfigurationNode 構造
CodeGenConfigurationNode
は、すべての有効なノードタイプを列挙します。そのメンバー変数は 1 つしか入力できません。
フィールド
-
AthenaConnectorSource
– AthenaConnectorSource オブジェクト。Amazon Athena データソースへのコネクタを指定します。
-
JDBCConnectorSource
– JDBCConnectorSource オブジェクト。JDBC データソースへのコネクタを指定します。
-
SparkConnectorSource
– SparkConnectorSource オブジェクト。Apache Spark データソースへのコネクタを指定します。
-
CatalogSource
– CatalogSource オブジェクト。AWS Glue データカタログ内のデータストアを指定します。
-
RedshiftSource
– RedshiftSource オブジェクト。Amazon Redshift データストアを指定します。
-
S3CatalogSource
– S3CatalogSource オブジェクト。データカタログ内の Amazon S3 AWS Glue データストアを指定します。
-
S3CsvSource
– S3CsvSource オブジェクト。Amazon S3 に保存されているコマンド区切り値 (CSV) データストアを指定します。
-
S3JsonSource
– S3JsonSource オブジェクト。Amazon S3 に保存されているJSONデータストアを指定します。
-
S3ParquetSource
– S3ParquetSource オブジェクト。Amazon S3 に保存されている Apache Parquet データストアを指定します。
-
RelationalCatalogSource
– RelationalCatalogSource オブジェクト。AWS Glue データカタログ内のリレーショナルカタログデータストアを指定します。
-
DynamoDBCatalogSource
– D ynamoDBCatalogソース オブジェクト。データカタログ内の DynamoDBC Catalog AWS Glue データストアを指定します。
-
JDBCConnectorTarget
– JDBCConnectorTarget オブジェクト。Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
-
SparkConnectorTarget
– SparkConnectorTarget オブジェクト。Apache Spark コネクタを使用するターゲットを指定します。
-
CatalogTarget
– BasicCatalogTarget オブジェクト。AWS Glue Data Catalog テーブルを使用するターゲットを指定します。
-
RedshiftTarget
– RedshiftTarget オブジェクト。Amazon Redshift を使用するターゲットを指定します。
-
S3CatalogTarget
– S3CatalogTarget オブジェクト。Data Catalog を使用して Amazon S3 に書き込む AWS Glue データターゲットを指定します。
-
S3GlueParquetTarget
– S3GlueParquetTarget オブジェクト。Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
-
S3DirectTarget
– S3DirectTarget オブジェクト。Amazon S3 に書き込むデータターゲットを指定します。
-
ApplyMapping
– ApplyMapping オブジェクト。データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。
-
SelectFields
– SelectFields オブジェクト。保持するデータプロパティキーの選択変換を指定します。
-
DropFields
– DropFields オブジェクト。削除するデータプロパティキーを選択する変換を指定します。
-
RenameField
– RenameField オブジェクト。1 つのデータプロパティキーの名前を変更する変換を指定します。
-
Spigot
– スピゴット オブジェクト。Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。
-
Join
– Join オブジェクト。指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。
-
SplitFields
– SplitFields オブジェクト。データプロパティキーを 2 つの
DynamicFrames
に分割する変換を指定します。出力はDynamicFrames
のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。 -
SelectFromCollection
– SelectFromCollection オブジェクト。DynamicFrame
のコレクションから 1 つのDynamicFrames
を選択するトランスフォームを指定します。出力は選択されたDynamicFrame
です。 -
FillMissingValues
– FillMissingValues オブジェクト。変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。
-
Filter
– フィルター オブジェクト。フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。
-
CustomCode
– CustomCode オブジェクト。データ変換を実行するためにカスタムコードを使用する変換を指定します。出力は のコレクションです DynamicFrames。
-
SparkSQL
– SparkSQL オブジェクト。Spark SQL構文を使用してデータを変換するSQLクエリを入力する変換を指定します。出力は、単一の
DynamicFrame
です。 -
DirectKinesisSource
– DirectKinesisSource オブジェクト。直接 Amazon Kinesis データソースを指定します。
-
DirectKafkaSource
– DirectKafkaSource オブジェクト。Apache Kafka データストアを指定します。
-
CatalogKinesisSource
– CatalogKinesisSource オブジェクト。データカタログ内の Kinesis AWS Glue データソースを指定します。
-
CatalogKafkaSource
– CatalogKafkaSource オブジェクト。データカタログで Apache Kafka データストアを指定します。
-
DropNullFields
– DropNullFields オブジェクト。列のすべての値がNullである場合に、データセットから列を削除する変換を指定します。デフォルトでは、 AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、「null」である文字列、-1 整数、またはゼロなどの他のプレースホルダーなどの一部の値は、自動的に null として認識されません。
-
Merge
– マージ オブジェクト。レコードを識別するために、
DynamicFrame
プライマリキーに基づくDynamicFrame
ステージングに結合変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。 -
Union
– Union オブジェクト。2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。
-
PIIDetection
– PIIDetection オブジェクト。PII データを識別、削除、またはマスクする変換を指定します。
-
Aggregate
– 集計 オブジェクト。選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。
-
DropDuplicates
– DropDuplicates オブジェクト。繰り返しデータの行をデータセットから削除する変換を指定します。
-
GovernedCatalogTarget
– GovernedCatalogTarget オブジェクト。管理されたカタログに書き込むデータターゲットを指定します。
-
GovernedCatalogSource
– GovernedCatalogSource オブジェクト。管理されたデータカタログ内のデータソースを指定します。
-
MicrosoftSQLServerCatalogSource
– MicrosoftSQLServerCatalogSource オブジェクト。データカタログ内の AWS Glue Microsoft SQLサーバーデータソースを指定します。
-
MySQLCatalogSource
– M ySQLCatalogソース オブジェクト。AWS Glue データカタログ内の MySQL データソースを指定します。
-
OracleSQLCatalogSource
– O racleSQLCatalogソース オブジェクト。Data Catalog で Oracle AWS Glue データソースを指定します。
-
PostgreSQLCatalogSource
– P ostgreSQLCatalogソース オブジェクト。AWS Glue データカタログ内の PostgresSQL データソースを指定します。
-
MicrosoftSQLServerCatalogTarget
– MicrosoftSQLServerCatalogTarget オブジェクト。Microsoft を使用するターゲットを指定しますSQL。
-
MySQLCatalogTarget
– M ySQLCatalogターゲット オブジェクト。My を使用するターゲットを指定しますSQL。
-
OracleSQLCatalogTarget
– O racleSQLCatalogターゲット オブジェクト。Oracle を使用するターゲットを指定しますSQL。
-
PostgreSQLCatalogTarget
– P ostgreSQLCatalogターゲット オブジェクト。Postgres を使用するターゲットを指定しますSQL。
-
DynamicTransform
– DynamicTransform オブジェクト。ユーザーが作成したカスタムビジュアル変換を指定します。
-
EvaluateDataQuality
– EvaluateDataQuality オブジェクト。データ品質評価基準を指定します。
-
S3CatalogHudiSource
– S3CatalogHudiSource オブジェクト。AWS Glue データカタログに登録されている Hudi データソースを指定します。データソースは に保存する必要があります Amazon S3。
-
CatalogHudiSource
– CatalogHudiSource オブジェクト。AWS Glue データカタログに登録されている Hudi データソースを指定します。
-
S3HudiSource
– S3HudiSource オブジェクト。に保存されている Hudi データソースを指定します Amazon S3。
-
S3HudiCatalogTarget
– S3HudiCatalogTarget オブジェクト。AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。
-
S3HudiDirectTarget
– S3HudiDirectTarget オブジェクト。で Hudi データソースに書き込むターゲットを指定します Amazon S3。
-
S3CatalogDeltaSource
– S3CatalogDeltaSource オブジェクト。AWS Glue データカタログに登録されている Delta Lake データソースを指定します。データソースは に保存する必要があります Amazon S3。
-
CatalogDeltaSource
– CatalogDeltaSource オブジェクト。AWS Glue データカタログに登録されている Delta Lake データソースを指定します。
-
S3DeltaSource
– S3DeltaSource オブジェクト。に保存されている Delta Lake データソースを指定します Amazon S3。
-
S3DeltaCatalogTarget
– S3DeltaCatalogTarget オブジェクト。AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。
-
S3DeltaDirectTarget
– S3DeltaDirectTarget オブジェクト。で Delta Lake データソースに書き込むターゲットを指定します Amazon S3。
-
AmazonRedshiftSource
– AmazonRedshiftSource オブジェクト。Amazon Redshift 内のデータソースに書き込むターゲットを指定します。
-
AmazonRedshiftTarget
– AmazonRedshiftTarget オブジェクト。Amazon Redshift 内のデータターゲットに書き込むターゲットを指定します。
-
EvaluateDataQualityMultiFrame
– EvaluateDataQualityMultiFrame オブジェクト。データ品質評価基準を指定します。複数の入力データを許可し、DynamicFrames のコレクションを返します。
-
Recipe
– レシピ オブジェクト。AWS Glue DataBrew レシピノードを指定します。
-
SnowflakeSource
– SnowflakeSource オブジェクト。Snowflake データソースを指定します。
-
SnowflakeTarget
– SnowflakeTarget オブジェクト。Snowflake データソースに書き込むターゲットを指定します。
-
ConnectorDataSource
– ConnectorDataSource オブジェクト。標準の接続オプションを使用して生成されたソースを指定します。
-
ConnectorDataTarget
– ConnectorDataTarget オブジェクト。標準の接続オプションを使用して生成されたターゲットを指定します。
JDBCConnectorOptions 構造
コネクタの追加接続オプション。
フィールド
-
FilterPredicate
– UTF-8 文字列。 に一致Custom string pattern #43。ソースからのデータをフィルタリングする追加の条件句。例:
BillingCity='Mountain View'
テーブル名の代わりにクエリを使用する場合は、指定された
filterPredicate
でクエリが動作することを確認します。 -
PartitionColumn
– UTF-8 文字列。 に一致Custom string pattern #43。パーティション化に使用される整数カラムの名前を示す文字列。このオプションは、
lowerBound
、upperBound
、およびnumPartitions
に含まれている場合にのみ機能します。このオプションは、Spark SQL JDBC リーダーと同じように機能します。 -
LowerBound
– 数値 (long)。None 以下。パーティションストライドを決定するために使用される
partitionColumn
の最小値を示す整数。 -
UpperBound
– 数値 (long)。None 以下。パーティションストライドを決定するために使用される
partitionColumn
の最大値を示す整数。 -
NumPartitions
– 数値 (long)。None 以下。ターゲットパーティション数。この値は、(範囲に含まれる)
lowerBound
と (範囲に含まれない)upperBound
とともに使用され、partitionColumn
の分割で使用するために生成されたWHERE
句の式のための、パーティションストライドを形成します。 -
JobBookmarkKeys
– UTF-8 文字列の配列。ソートするジョブブックマークキーの名前。
-
JobBookmarkKeysSortOrder
– UTF-8 文字列。 に一致Custom string pattern #43。昇順または降順のソート順を指定します。
-
DataTypeMapping
– キーバリューペアのマップ配列。各キーは UTF-8 文字列です (有効な値:
ARRAY
|BIGINT
| |BINARY
|BIT
|BLOB
|BOOLEAN
| |CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
FLOAT
| |INTEGER
|JAVA_OBJECT
LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
NCHAR
| |NCLOB
NULL
NUMERIC
|NVARCHAR
|OTHER
REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
| | | |TINYINT
| | | | |SQLXML
STRUCT
TIME
TIME_WITH_TIMEZONE
TIMESTAMP
TIMESTAMP_WITH_TIMEZONE
VARBINARY
| | |VARCHAR
)。各値は UTF-8 文字列です (有効な値:
DATE
|STRING
| | |TIMESTAMP
|INT
|FLOAT
LONG
|BIGDECIMAL
|BYTE
SHORT
|DOUBLE
)。データ型からデータ型へのマッピングを構築するカスタム AWS Glue データJDBC型マッピング。例えば、 オプションは、ドライバーの
ResultSet.getString()
メソッドを呼び出しFLOAT
て JDBC型のデータフィールドを JavaString
型に"dataTypeMapping":{"FLOAT":"STRING"}
マッピングし、それを使用して AWS Glue レコードを構築します。ResultSet
オブジェクトは各ドライバによって実装されるため、その動作は使用するドライバにより決定されます。JDBC ドライバーが変換を実行する方法については、ドライバーのドキュメントを参照してください。
StreamingDataPreviewOptions 構造
データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
フィールド
-
PollingTime
– 10 以上の数値 (long)。ミリ秒単位のポーリング時間。
-
RecordPollingLimit
– 1 以上の数値 (long)。ポーリングされるレコード数の制限。
AthenaConnectorSource 構造
Amazon Athena データソースへのコネクタを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致しますCustom string pattern #45。データソースの名前。
-
ConnectionName
– 必須: UTF-8 文字列。 に一致しますCustom string pattern #43。コネクタに関連付けられている接続の名前。
-
ConnectorName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。AWS Glue Studio のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。Amazon Athena データストアへの接続を指定する marketplace.athena や custom.athena など接続のタイプ。
-
ConnectionTable
– UTF-8 文字列。 に一致Custom string pattern #43。データソース内のテーブルの名前。
-
SchemaName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取り元となる Cloudwatch ロググループの名前。例えば、
/aws-glue/jobs/output
と指定します。 -
OutputSchemas
– GlueSchema オブジェクトの配列。カスタム Athena ソース用のデータスキーマを指定します。
JDBCConnectorSource 構造
JDBC データソースへのコネクタを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
ConnectionName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。コネクタに関連付けられている接続の名前。
-
ConnectorName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。AWS Glue Studio のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。JDBC データストアへの接続を指定する marketplace.jdbc や custom.jdbc などの接続のタイプ。
-
AdditionalOptions
– JDBCConnectorOptions オブジェクト。コネクタの追加接続オプション。
-
ConnectionTable
– UTF-8 文字列。 に一致しますCustom string pattern #43。データソース内のテーブルの名前。
-
Query
– UTF-8 文字列。 に一致Custom string pattern #44。データを取得するテーブルまたはSQLクエリ。
ConnectionTable
またはquery
を指定できます。両方を指定することはできません。 -
OutputSchemas
– GlueSchema オブジェクトの配列。カスタムJDBCソースのデータスキーマを指定します。
SparkConnectorSource 構造
Apache Spark データソースへのコネクタを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
ConnectionName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。コネクタに関連付けられている接続の名前。
-
ConnectorName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。AWS Glue Studio のデータストアへのアクセスを支援するコネクタの名前。
-
ConnectionType
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。Apache Spark データストアへの接続を指定する marketplace.spark や custom.spark などの接続のタイプ。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプション。
-
OutputSchemas
– GlueSchema オブジェクトの配列。カスタム Spark ソース用のデータスキーマを指定します。
CatalogSource 構造
AWS Glue データカタログ内のデータストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データストアの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
M ySQLCatalogソース構造
AWS Glue データカタログ内の MySQL データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
P ostgreSQLCatalogソース構造
AWS Glue データカタログ内の PostgresSQL データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
O racleSQLCatalogソース構造
Data Catalog で Oracle AWS Glue データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
M icrosoftSQLServerCatalogSource 構造
データカタログ内の AWS Glue Microsoft SQLサーバーデータソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
CatalogKinesisSource 構造
データカタログ内の Kinesis AWS Glue データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
WindowSize
– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema
– ブール。受信データからスキーマを自動的に決定するかどうか。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースの名前。
-
StreamingOptions
– KinesisStreamingSourceOptions オブジェクト。Kinesis ストリーミングデータソースの追加オプション。
-
DataPreviewOptions
– StreamingDataPreviewOptions オブジェクト。データプレビューの追加オプション。
DirectKinesisSource 構造
直接 Amazon Kinesis データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データソースの名前。
-
WindowSize
– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema
– ブール。受信データからスキーマを自動的に決定するかどうか。
-
StreamingOptions
– KinesisStreamingSourceOptions オブジェクト。Kinesis ストリーミングデータソースの追加オプション。
-
DataPreviewOptions
– StreamingDataPreviewOptions オブジェクト。データプレビューの追加オプション。
KinesisStreamingSourceOptions 構造
Amazon Kinesis ストリーミングデータソースの追加オプション。
フィールド
-
EndpointUrl
– UTF-8 文字列。 に一致Custom string pattern #43。Kinesis エンドポイントURLの 。
-
StreamName
– UTF-8 文字列。 に一致Custom string pattern #43。Kinesis データストリームの名前。
-
Classification
– UTF-8 文字列。 に一致Custom string pattern #43。オプションの分類。
-
Delimiter
– UTF-8 文字列。 に一致Custom string pattern #43。区切り記号文字を指定します。
-
StartingPosition
– UTF-8 文字列 (有効な値:latest="LATEST"
|trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
|timestamp="TIMESTAMP"
)。Kinesis データストリーム内の、データの読み取り開始位置。指定できる値は
"latest"
、、"trim_horizon"
"earliest"
、、またはパターンのUTC形式のタイムスタンプ文字列ですyyyy-mm-ddTHH:MM:SSZ
( は +/- のUTCタイムゾーンオフセットZ
を表します。 例:2023-04-04T08:00:00-04:00」)。デフォルト値は"latest"
です。注:UTC「」形式のタイムスタンプ文字列である値はstartingPosition、 AWS Glue バージョン 4.0 以降でのみサポートされます。
-
MaxFetchTimeInMs
– 数値 (long)。None 以下。ジョブエグゼキューターが Kinesis データストリームから現在のバッチのレコードを読み取るために費やした最大時間は、ミリ秒 (ms) 単位で指定されます。この時間内に複数の
GetRecords
API呼び出しが行われる場合があります。デフォルト値は1000
です。 -
MaxFetchRecordsPerShard
– 数値 (long)。None 以下。1 マイクロバッチ当たりに Kinesis データストリームでシャードごとにフェッチするレコードの最大数。メモ: ストリーミングジョブが既に Kinesis (同じ get-records 呼び出しで) から余分なレコードを読み取っている場合、クライアントはこの制限を超えることができます。
MaxFetchRecordsPerShard
が厳密である必要がある場合、MaxRecordPerRead
の倍数にする必要があります。デフォルト値は100000
です。 -
MaxRecordPerRead
– 数値 (long)。None 以下。各 getRecords オペレーションで Kinesis データストリームから取得するレコードの最大数。デフォルト値は
10000
です。 -
AddIdleTimeBetweenReads
– ブール。2 つの連続する getRecords オペレーション間の遅延時間を追加します。デフォルト値は
"False"
です。このオプションは、Glue バージョン 2.0 以降でのみ設定可能です。 -
IdleTimeBetweenReadsInMs
– 数値 (long)。None 以下。2 回の連続する getRecords オペレーション間の最小遅延時間。ミリ秒単位で指定します。デフォルト値は
1000
です。このオプションは、Glue バージョン 2.0 以降でのみ設定可能です。 -
DescribeShardInterval
– 数値 (long)。None 以下。スクリプトが再シャーディングを検討するための 2 ListShards API 回の呼び出しの最小時間間隔。デフォルト値は
1s
です。 -
NumRetries
– 数値 (整数)、None 以下。Kinesis Data Streams APIリクエストの最大再試行回数。デフォルト値は
3
です。 -
RetryIntervalMs
– 数値 (long)。None 以下。Kinesis Data Streams API呼び出しを再試行するまでのクールオフ期間 (ミリ秒単位で指定)。デフォルト値は
1000
です。 -
MaxRetryIntervalMs
– 数値 (long)。None 以下。Kinesis Data Streams API呼び出しの 2 回の再試行間の最大クールオフ時間 (ミリ秒単位で指定)。デフォルト値は
10000
です。 -
AvoidEmptyBatches
– ブール。バッチ処理を開始する前に、Kinesis データストリームで未読のデータをチェックすることで、空のマイクロバッチジョブを作成しないようにします。デフォルト値は
"False"
です。 -
StreamArn
– UTF-8 文字列。 に一致Custom string pattern #43。Kinesis データストリームの Amazon リソースネーム (ARN)。
-
RoleArn
– UTF-8 文字列。 に一致Custom string pattern #43。AWS Security Token Service (ARN) を使用して引き受けるロールの Amazon リソースネーム (AWS)STS。このロールには、Kinesis データストリームのレコードの説明操作または読み取り操作の権限が必要です。このパラメーターは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。
"awsSTSSessionName"
と組み合わせて使用します。 -
RoleSessionName
– UTF-8 文字列。 に一致Custom string pattern #43。を使用してロールを引き受けるセッションの識別子AWSSTS。このパラメーターは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。
"awsSTSRoleARN"
と組み合わせて使用します。 -
AddRecordTimestamp
– UTF-8 文字列。 に一致Custom string pattern #43。このオプションが「true」に設定されている場合、データ出力には、対応するレコードがストリームによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは、 AWS Glue バージョン 4.0 以降でサポートされています。
-
EmitConsumerLagMetrics
– UTF-8 文字列。 に一致Custom string pattern #43。このオプションを「true」に設定すると、バッチごとに、ストリームが受信した最も古いレコードから に到着するまでの期間のメトリクスが出力されます AWS Glue CloudWatch。メトリクスの名前は「glue.driver.streaming」ですmaxConsumerLagInMs。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
StartingTimestamp
– UTF-8 文字列。データの読み取りを開始する Kinesis データストリーム内のレコードのタイムスタンプ。指定できる値は、パターンUTC形式のタイムスタンプ文字列です
yyyy-mm-ddTHH:MM:SSZ
(Z は +/- のUTCタイムゾーンオフセットを表します。 例:2023-04-04T08:00:00+08:00」)。
CatalogKafkaSource 構造
データカタログで Apache Kafka データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データストアの名前。
-
WindowSize
– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema
– ブール。受信データからスキーマを自動的に決定するかどうか。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
StreamingOptions
– KafkaStreamingSourceOptions オブジェクト。ストリーミングオプションを指定します。
-
DataPreviewOptions
– StreamingDataPreviewOptions オブジェクト。データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
DirectKafkaSource 構造
Apache Kafka データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データストアの名前。
-
StreamingOptions
– KafkaStreamingSourceOptions オブジェクト。ストリーミングオプションを指定します。
-
WindowSize
– 数値 (整数)、None 以下。各マイクロバッチの処理にかかる時間。
-
DetectSchema
– ブール。受信データからスキーマを自動的に決定するかどうか。
-
DataPreviewOptions
– StreamingDataPreviewOptions オブジェクト。データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。
KafkaStreamingSourceOptions 構造
ストリーミングの追加オプション。
フィールド
-
BootstrapServers
– UTF-8 文字列。 に一致Custom string pattern #43。ブートストラップサーバーのリストURLs。例えば、 など
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
。このオプションは、 API呼び出しで指定するか、Data Catalog のテーブルメタデータで定義する必要があります。 -
SecurityProtocol
– UTF-8 文字列。 に一致Custom string pattern #43。ブローカーと通信するために使用されるプロトコル。使用できる値は、
"SSL"
または"PLAINTEXT"
です。 -
ConnectionName
– UTF-8 文字列。 に一致Custom string pattern #43。コレクションの名前。
-
TopicName
– UTF-8 文字列。 に一致Custom string pattern #43。Apache Kafka で指定されたトピック名。少なくくとも
"topicName"
、"assign"
、"subscribePattern"
の内いずれかを指定する必要があります。 -
Assign
– UTF-8 文字列。 に一致Custom string pattern #43。消費する特有の
TopicPartitions
。少なくくとも"topicName"
、"assign"
、"subscribePattern"
の内いずれかを指定する必要があります。 -
SubscribePattern
– UTF-8 文字列。 に一致Custom string pattern #43。サブスクライブする先のトピックリストを識別する Java の正規表現文字列。少なくくとも
"topicName"
、"assign"
、"subscribePattern"
の内いずれかを指定する必要があります。 -
Classification
– UTF-8 文字列。 に一致Custom string pattern #43。オプションの分類。
-
Delimiter
– UTF-8 文字列。 に一致Custom string pattern #43。区切り記号文字を指定します。
-
StartingOffsets
– UTF-8 文字列。 に一致Custom string pattern #43。Kafka トピック内で、データの読み取りを開始する位置 使用できる値は、
"earliest"
または"latest"
です。デフォルト値は"latest"
です。 -
EndingOffsets
– UTF-8 文字列。 に一致Custom string pattern #43。バッチクエリの終了位置。指定できる値は、
"latest"
または各 の終了オフセットを指定するJSON文字列のいずれかですTopicPartition
。 -
PollTimeoutMs
– 数値 (long)。None 以下。Spark ジョブエグゼキュータで、Kafka からデータをポーリングする際のタイムアウト値 (ミリ秒単位)。デフォルト値は
512
です。 -
NumRetries
– 数値 (整数)、None 以下。Kafka オフセットのフェッチが失敗したと判断される前の再試行回数。デフォルト値は
3
です。 -
RetryIntervalMs
– 数値 (long)。None 以下。Kafka オフセットのフェッチを開始するまでの待機時間 (ミリ秒)。デフォルト値は
10
です。 -
MaxOffsetsPerTrigger
– 数値 (long)。None 以下。処理されるオフセットの最大数を、トリガー間隔ごとのレート上限で指定する値。指定されたオフセットの合計数は、異なるボリュームの
topicPartitions
間で均等に分割されます。デフォルト値は「null」です。この場合、コンシューマーは既知の最新のオフセットまで、すべてのオフセットを読み取ります。 -
MinPartitions
– 数値 (整数)、None 以下。Kafka から読み取ることを想定する、最小のパーティション数。デフォルト値は「null」です。これは、Spark パーティションの数が Kafka パーティションの数に等しいことを意味します。
-
IncludeHeaders
– ブール。Kafka ヘッダーを含めるかどうかを決定します。このオプションが「true」に設定されている場合、データ出力には、「glue_streaming_kafka_headers」という名前で
Array[Struct(key: String, value: String)]
型の列が追加されます。デフォルト値は「false」です。このオプションは、 AWS Glue バージョン 3.0 以降でのみ使用できます。 -
AddRecordTimestamp
– UTF-8 文字列。 に一致Custom string pattern #43。このオプションが「true」に設定されている場合、データ出力には、対応するレコードがトピックによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは、 AWS Glue バージョン 4.0 以降でサポートされています。
-
EmitConsumerLagMetrics
– UTF-8 文字列。 に一致Custom string pattern #43。このオプションを「true」に設定すると、バッチごとに、トピックによって受信された最も古いレコードから に到着した時点までの期間のメトリクスが出力されます AWS Glue CloudWatch。メトリクスの名前は「glue.driver.streaming」ですmaxConsumerLagInMs。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。
-
StartingTimestamp
– UTF-8 文字列。データの読み取りを開始する Kafka トピック内のレコードのタイムスタンプ。指定できる値は、パターンUTC形式のタイムスタンプ文字列です
yyyy-mm-ddTHH:MM:SSZ
(Z は +/- のUTCタイムゾーンオフセットを表します。 例:2023-04-04T08:00:00+08:00」)。StartingTimestamp
またはStartingOffsets
のいずれかのみを設定する必要があります。
RedshiftSource 構造
Amazon Redshift データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。Amazon Redshift データストアの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み込むデータベース。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取り元のデータベーステーブル。
-
RedshiftTmpDir
– UTF-8 文字列。 に一致Custom string pattern #43。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
TmpDirIAMRole
– UTF-8 文字列。 に一致Custom string pattern #43。アクセス許可を持つIAMロール。
AmazonRedshiftSource 構造
Amazon Redshift ソースを指定します。
フィールド
-
Name
– UTF-8 文字列。 に一致Custom string pattern #45。Amazon Redshift ソースの名前。
-
Data
– AmazonRedshiftNodeData オブジェクト。Amazon Reshift ソースノードのデータを指定します。
AmazonRedshiftNodeData 構造
Amazon Redshift ノードを指定します。
フィールド
-
AccessType
– UTF-8 文字列。 に一致Custom string pattern #42。Redshift 接続のアクセスタイプ。直接接続またはカタログ接続が可能です。
-
SourceType
– UTF-8 文字列。 に一致Custom string pattern #42。特定のテーブルがソースかカスタムクエリかを指定するソースタイプ。
-
Connection
– オプション オブジェクト。Redshift クラスター AWS Glue への接続。
-
Schema
– オプション オブジェクト。直接接続で作業するときの Redshift スキーマの名前。
-
Table
– オプション オブジェクト。直接接続で作業するときの Redshift テーブルの名前。
-
CatalogDatabase
– オプション オブジェクト。データカタログを操作するときの AWS Glue Data Catalog データベースの名前。
-
CatalogTable
– オプション オブジェクト。AWS Glue データカタログを使用する場合のデータカタログテーブル名。
-
CatalogRedshiftSchema
– UTF-8 文字列。データカタログで作業するときの Redshift スキーマの名前。
-
CatalogRedshiftTable
– UTF-8 文字列。読み取り元のデータベーステーブル。
-
TempDir
– UTF-8 文字列。 に一致Custom string pattern #43。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
IamRole
– オプション オブジェクト。オプション。S3 に接続するときに使用するロールの名前。IAM 空白のままにすると、ロールはデフォルトでジョブのロールになります。
-
AdvancedOptions
– AmazonRedshiftAdvancedOption オブジェクトの配列。Redshift クラスターに接続するときのオプションの値。
-
SampleQuery
– UTF-8 文字列。が「クエリ」の場合 SourceTypeに Redshift ソースからデータを取得するSQLために使用される 。
-
PreAction
– UTF-8 文字列。アップサートAPPENDで MERGEまたは を実行する前にSQL使用する 。
-
PostAction
– UTF-8 文字列。アップサートAPPENDで MERGEまたは を実行する前にSQL使用する 。
-
Action
– UTF-8 文字列。Redshift クラスターへの書き込み方法を指定します。
-
TablePrefix
– UTF-8 文字列。 に一致Custom string pattern #42。テーブルへのプレフィックスを指定します。
-
Upsert
– ブール。を実行するときに Redshift シンクで使用されるアクションAPPEND。
-
MergeAction
– UTF-8 文字列。 に一致Custom string pattern #42。Redshift シンクMERGE内の の処理方法を決定するときに使用されるアクション。
-
MergeWhenMatched
– UTF-8 文字列。 に一致Custom string pattern #42。既存のレコードが新しいレコードと一致する場合に、Redshift シンクMERGEの の処理方法を決定するときに使用されるアクション。
-
MergeWhenNotMatched
– UTF-8 文字列。 に一致Custom string pattern #42。既存のレコードが新しいレコードと一致しない場合に、Redshift シンクMERGEの の処理方法を決定するときに使用されるアクション。
-
MergeClause
– UTF-8 文字列。一致するレコードを処理するためにカスタムマージSQLで使用される 。
-
CrawlerConnection
– UTF-8 文字列。使用するカタログテーブルに関連する接続の名前を指定します。
-
TableSchema
– オプション オブジェクトの配列。特定のノードにおけるスキーマ出力の配列。
-
StagingTable
– UTF-8 文字列。アップサートAPPENDで MERGEまたは を実行するときに使用する一時ステージングテーブルの名前。
-
SelectedColumns
– オプション オブジェクトの配列。アップサートAPPENDで MERGEまたは を実行するときに一致するレコードを決定するために使用される列名のリスト。
AmazonRedshiftAdvancedOption 構造
Redshift クラスターに接続するときのオプションの値を指定します。
フィールド
-
Key
– UTF-8 文字列。追加接続オプションのキー。
-
Value
– UTF-8 文字列。追加接続オプションの値。
Option 構造
オプションの値を指定します。
フィールド
-
Value
– UTF-8 文字列。 に一致Custom string pattern #43。オプションの値を指定します。
-
Label
– UTF-8 文字列。 に一致Custom string pattern #43。オプションのラベルを指定します。
-
Description
– UTF-8 文字列。 に一致Custom string pattern #43。オプションの説明を指定します。
S3CatalogSource 構造
データカタログ内の Amazon S3 AWS Glue データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データストアの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み込むデータベース。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取り元のデータベーステーブル。
-
PartitionPredicate
– UTF-8 文字列。 に一致Custom string pattern #43。この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。
""
を設定 – デフォルトでは空です。 -
AdditionalOptions
– S3SourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
S3SourceAdditionalOptions 構造
Amazon S3 データストアの追加の接続オプションを指定します。
フィールド
-
BoundedSize
– 数値 (long 型)。処理されるバイトのデータセットのターゲットサイズの上限を設定します。
-
BoundedFiles
– 数値 (long 型)。処理されるファイルのターゲット数の上限を設定します。
S3CsvSource 構造
Amazon S3 に保存されているコマンド区切り値 (CSV) データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データストアの名前。
-
Paths
– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType
– UTF-8 文字列 (有効な値:gzip="GZIP"
|bzip2="BZIP2"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Exclusions
– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンJSONのリストを含む文字列。例えば、「[\"**.pdf」〕「 はすべてのPDFファイルを除外します。
-
GroupSize
– UTF-8 文字列。 に一致Custom string pattern #43。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"
を"inPartition"
に設定する必要があります。 -
GroupFiles
– UTF-8 文字列。 に一致Custom string pattern #43。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。ファイル数が 50,000 未満のグループ化を有効にするには、このパラメータを「」に設定しますinPartition。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"
に設定します。 -
Recurse
– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand
– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。変更タイムスタンプが過去 maxBand 1 ミリ秒以内のファイルは、 を使用して JobBookmarks Amazon S3 の結果整合性を考慮すると、特に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900000 ミリ秒 (15 分) です。
-
MaxFilesInBand
– 数値 (整数)、None 以下。このオプションは、過去 maxBand 秒から保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
Separator
– 必須: UTF-8 文字列 (有効な値:comma="COMMA"
|ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
)。区切り記号文字を指定します。デフォルトではカンマ: "," ですが、他の任意の文字を指定できます。
-
Escaper
– UTF-8 文字列。 に一致Custom string pattern #43。エスケープに使用する文字を指定します。このオプションは、CSVファイルを読み取る場合にのみ使用されます。デフォルト値は
none
です。有効にすると、直後の文字はそのまま使用されます。ただし、よく知られている小さいエスケープセット (\n
、\r
、\t
、\0
) を除きます。 -
QuoteChar
– 必須: UTF-8 文字列 (有効な値:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
)。引用に使用する文字を指定します。デフォルト値は二重引用符
'"'
です。これに-1
を設定すると、全体的に引用が無効になります。 -
Multiline
– ブール。単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は
False
であり、解析時によりアグレッシブなファイル分割を可能にします。 -
WithHeader
– ブール。最初の行をヘッダーとして扱うかどうかを指定するブール値。デフォルト値は
False
です。 -
WriteHeader
– ブール。ヘッダーを出力に書き込むかどうかを指定するブール値。デフォルト値は
True
です。 -
SkipFirst
– ブール。最初のデータ行をスキップするかどうかを指定するブール値。デフォルト値は
False
です。 -
OptimizePerformance
– ブール。Apache Arrow ベースの列指向メモリ形式とともにアドバンストSIMDCSVリーダーを使用するかどうかを指定するブール値。 AWS Glue バージョン 3.0 でのみ使用できます。
-
OutputSchemas
– GlueSchema オブジェクトの配列。S3 CSVソースのデータスキーマを指定します。
D irectJDBCSource 構造
直接JDBCソース接続を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。JDBC ソース接続の名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。JDBC ソース接続のデータベース。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。JDBC ソース接続のテーブル。
-
ConnectionName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。JDBC ソースの接続名。
-
ConnectionType
– 必須: UTF-8 文字列 (有効な値:sqlserver
|mysql
|oracle
|postgresql
|redshift
)。JDBC ソースの接続タイプ。
-
RedshiftTmpDir
– UTF-8 文字列。 に一致Custom string pattern #43。JDBC Redshift ソースの一時ディレクトリ。
S3DirectSourceAdditionalOptions 構造
Amazon S3 データストアの追加の接続オプションを指定します。
フィールド
-
BoundedSize
– 数値 (long 型)。処理されるバイトのデータセットのターゲットサイズの上限を設定します。
-
BoundedFiles
– 数値 (long 型)。処理されるファイルのターゲット数の上限を設定します。
-
EnableSamplePath
– ブール。オプションを設定しサンプルパスを有効にします。
-
SamplePath
– UTF-8 文字列。 に一致Custom string pattern #43。有効にした場合は、サンプルパスを指定します。
S3JsonSource 構造
Amazon S3 に保存されているJSONデータストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データストアの名前。
-
Paths
– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType
– UTF-8 文字列 (有効な値:gzip="GZIP"
|bzip2="BZIP2"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Exclusions
– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンJSONのリストを含む文字列。例えば、「[\"**.pdf」〕「 はすべてのPDFファイルを除外します。
-
GroupSize
– UTF-8 文字列。 に一致Custom string pattern #43。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"
を"inPartition"
に設定する必要があります。 -
GroupFiles
– UTF-8 文字列。 に一致Custom string pattern #43。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。ファイル数が 50,000 未満のグループ化を有効にするには、このパラメータを「」に設定しますinPartition。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"
に設定します。 -
Recurse
– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand
– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。変更タイムスタンプが過去 maxBand 1 ミリ秒以内のファイルは、 を使用して JobBookmarks Amazon S3 の結果整合性を考慮すると、特に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900000 ミリ秒 (15 分) です。
-
MaxFilesInBand
– 数値 (整数)、None 以下。このオプションは、過去 maxBand 秒から保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
JsonPath
– UTF-8 文字列。 に一致Custom string pattern #43。JSON データを定義する JsonPath 文字列。
-
Multiline
– ブール。単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は
False
であり、解析時によりアグレッシブなファイル分割を可能にします。 -
OutputSchemas
– GlueSchema オブジェクトの配列。S3 JSONソースのデータスキーマを指定します。
S3ParquetSource 構造
Amazon S3 に保存されている Apache Parquet データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データストアの名前。
-
Paths
– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
CompressionType
– UTF-8 文字列 (有効な値:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Exclusions
– UTF-8 文字列の配列。除外する Unix スタイルの glob パターンJSONのリストを含む文字列。例えば、「[\"**.pdf」〕「 はすべてのPDFファイルを除外します。
-
GroupSize
– UTF-8 文字列。 に一致Custom string pattern #43。ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、
"groupFiles"
を"inPartition"
に設定する必要があります。 -
GroupFiles
– UTF-8 文字列。 に一致Custom string pattern #43。入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。ファイル数が 50,000 未満のグループ化を有効にするには、このパラメータを「」に設定しますinPartition。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを
"none"
に設定します。 -
Recurse
– ブール。true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。
-
MaxBand
– 数値 (整数)、None 以下。このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。変更タイムスタンプが過去 maxBand 1 ミリ秒以内のファイルは、 を使用して JobBookmarks Amazon S3 の結果整合性を考慮すると、特に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900000 ミリ秒 (15 分) です。
-
MaxFilesInBand
– 数値 (整数)、None 以下。このオプションは、過去 maxBand 秒から保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。S3 Parquet ソース用のデータスキーマを指定します。
S3DeltaSource 構造
に保存されている Delta Lake データソースを指定します Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。Delta Lake ソースの名前。
-
Paths
– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
AdditionalDeltaOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions オブジェクト。コネクタの追加オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
S3CatalogDeltaSource 構造
AWS Glue データカタログに登録されている Delta Lake データソースを指定します。データソースは に保存する必要があります Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。Delta Lake データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
AdditionalDeltaOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
CatalogDeltaSource 構造
AWS Glue データカタログに登録されている Delta Lake データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。Delta Lake データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
AdditionalDeltaOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Delta Lake ソース用のデータスキーマを指定します。
S3HudiSource 構造
に保存されている Hudi データソースを指定します Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致しますCustom string pattern #45。Hudi ソースの名前。
-
Paths
– 必須: UTF-8 文字列の配列。読み取りのソースとなる Amazon S3 パスのリスト。
-
AdditionalHudiOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
AdditionalOptions
– S3DirectSourceAdditionalOptions オブジェクト。コネクタの追加オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
S3CatalogHudiSource 構造
AWS Glue データカタログに登録されている Hudi データソースを指定します。Hudi データソースは に保存する必要があります Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。Hudi データソースの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
AdditionalHudiOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
CatalogHudiSource 構造
AWS Glue データカタログに登録されている Hudi データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。Hudi データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
-
AdditionalHudiOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
追加の接続オプションを指定します。
-
OutputSchemas
– GlueSchema オブジェクトの配列。Hudi ソース用のデータスキーマを指定します。
D ynamoDBCatalogソース構造
データカタログ内の DynamoDB AWS Glue データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
RelationalCatalogSource 構造
AWS Glue データカタログ内の、リレーショナルデータベースデータソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データソースの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースの名前。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。読み取りデータベースのテーブルの名前。
JDBCConnectorTarget 構造
Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
ConnectionName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。コネクタに関連付けられている接続の名前。
-
ConnectionTable
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。データターゲットのテーブルの名前。
-
ConnectorName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。使用されるコネクタの名前。
-
ConnectionType
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。JDBC データターゲットへの接続を指定する marketplace.jdbc や custom.jdbc などの接続のタイプ。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプション。
-
OutputSchemas
– GlueSchema オブジェクトの配列。JDBC ターゲットのデータスキーマを指定します。
SparkConnectorTarget 構造
Apache Spark コネクタを使用するターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
ConnectionName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。Apache Spark コネクタの接続の名前。
-
ConnectorName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。Apache Spark コネクタの名前。
-
ConnectionType
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。Apache Spark データストアへの接続を指定する marketplace.spark や custom.spark などの接続のタイプ。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプション。
-
OutputSchemas
– GlueSchema オブジェクトの配列。カスタム Spark ターゲット用のデータスキーマを指定します。
BasicCatalogTarget 構造
AWS Glue Data Catalog テーブルを使用するターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。特定のキーまたはキーセットに基づいて、複数のパーティションまたはシャードにデータを分散するために使用されるパーティションキー。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。ターゲットとして使用するテーブルを含むデータベース。このデータベースは、データカタログに既に存在している必要があります。
-
Table
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。出力データのスキーマを定義するテーブル。このテーブルは、 のデータカタログに既に存在している必要があります。
M ySQLCatalogターゲット構造
My を使用するターゲットを指定しますSQL。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
P ostgreSQLCatalogターゲット構造
Postgres を使用するターゲットを指定しますSQL。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
O racleSQLCatalogターゲット構造
Oracle を使用するターゲットを指定しますSQL。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
M icrosoftSQLServerCatalogTarget 構造
Microsoft を使用するターゲットを指定しますSQL。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
RedshiftTarget 構造
Amazon Redshift を使用するターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
-
RedshiftTmpDir
– UTF-8 文字列。 に一致Custom string pattern #43。データベースからコピーするときに一時データをステージングできる Amazon S3 パス。
-
TmpDirIAMRole
– UTF-8 文字列。 に一致Custom string pattern #43。アクセス許可を持つIAMロール。
-
UpsertRedshiftOptions
– UpsertRedshiftTargetOptions オブジェクト。Redshift ターゲットに書き込む際の upsert 処理を設定するためのオプションセット。
AmazonRedshiftTarget 構造
Amazon Redshift ターゲットを指定します。
フィールド
-
Name
– UTF-8 文字列。 に一致しますCustom string pattern #45。Amazon Redshift ターゲットの名前。
-
Data
– AmazonRedshiftNodeData オブジェクト。Amazon Redshift ターゲットノードのデータを指定します。
-
Inputs
– UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
UpsertRedshiftTargetOptions 構造
Redshift ターゲットに書き込む際の upsert 処理を設定するオプション。
フィールド
-
TableLocation
– UTF-8 文字列。 に一致Custom string pattern #43。Redshift テーブルの物理的な場所。
-
ConnectionName
– UTF-8 文字列。 に一致Custom string pattern #43。Redshift に書き込むために使用する接続名。
-
UpsertKeys
– UTF-8 文字列の配列。更新または挿入のどちらを実行するかを決定するためのキー。
S3CatalogTarget 構造
Data Catalog を使用して Amazon S3 に書き込む AWS Glue データターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。書き込むデータベースの名前。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3GlueParquetTarget 構造
Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込む単一の Amazon S3 パス。
-
Compression
– UTF-8 文字列 (有効な値:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
SchemaChangePolicy
– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
CatalogSchemaChangePolicy 構造
クローラの更新の動作を指定するポリシー。
フィールド
-
EnableUpdateCatalog
– ブール。クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。
-
UpdateBehavior
– UTF-8 文字列 (有効な値:UPDATE_IN_DATABASE
|LOG
)。クローラーが変更されたスキーマを検出したときの更新動作。
S3DirectTarget 構造
Amazon S3 に書き込むデータターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込む単一の Amazon S3 パス。
-
Compression
– UTF-8 文字列。 に一致Custom string pattern #43。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Format
– 必須: UTF-8 文字列 (有効な値:json="JSON"
|csv="CSV"
| |avro="AVRO"
orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。ターゲットのデータ出力形式を指定します。
-
SchemaChangePolicy
– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3HudiCatalogTarget 構造
AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
-
Database
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。書き込むデータベースの名前。
-
AdditionalOptions
– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3HudiDirectTarget 構造
で Hudi データソースに書き込むターゲットを指定します Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
Path
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込み先の Hudi データソースの Amazon S3 パス。
-
Compression
– 必須: UTF-8 文字列 (有効な値:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Format
– 必須: UTF-8 文字列 (有効な値:json="JSON"
|csv="CSV"
| |avro="AVRO"
orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。ターゲットのデータ出力形式を指定します。
-
AdditionalOptions
– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3DeltaCatalogTarget 構造
AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
S3DeltaDirectTarget 構造
で Delta Lake データソースに書き込むターゲットを指定します Amazon S3。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Path
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。書き込み先の Delta Lake データソースの Amazon S3 パス。
-
Compression
– 必須: UTF-8 文字列 (有効な値:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
)。データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は
"gzip"
および"bzip"
です。 -
Format
– 必須: UTF-8 文字列 (有効な値:json="JSON"
|csv="CSV"
| |avro="AVRO"
orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
)。ターゲットのデータ出力形式を指定します。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
コネクタの追加接続オプションを指定します。
-
SchemaChangePolicy
– DirectSchemaChangePolicy オブジェクト。クローラの更新の動作を指定するポリシー。
DirectSchemaChangePolicy 構造
クローラの更新の動作を指定するポリシー。
フィールド
-
EnableUpdateCatalog
– ブール。クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。
-
UpdateBehavior
– UTF-8 文字列 (有効な値:UPDATE_IN_DATABASE
|LOG
)。クローラーが変更されたスキーマを検出したときの更新動作。
-
Table
– UTF-8 文字列。 に一致Custom string pattern #43。スキーマ変更ポリシーが適用されるデータベース内のテーブルを指定します。
-
Database
– UTF-8 文字列。 に一致Custom string pattern #43。スキーマ変更ポリシーを適用するデータベースを指定します。
ApplyMapping 構造
データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Mapping
– 必須: Mapping オブジェクトの配列。データソースのデータプロパティキーを、データターゲットのデータプロパティキーにマッピングします。
Mapping 構造
データプロパティキーのマッピングを指定します。
フィールド
-
ToKey
– UTF-8 文字列。 に一致Custom string pattern #43。マッピングを適用した後に、列名を何にするのかを示します。
FromPath
と同じでも構いません。 -
FromPath
– UTF-8 文字列の配列。変更するテーブルまたは列。
-
FromType
– UTF-8 文字列。 に一致Custom string pattern #43。修正されるデータのタイプ。
-
ToType
– UTF-8 文字列。 に一致しますCustom string pattern #43。データの修正先のデータタイプ。
-
Dropped
– ブール。true の場合、列は削除されます。
-
Children
– Mapping オブジェクトの配列。ネストされたデータ構造にのみ適用されます。親構造を変更し、その子構造を変更する場合は、このデータ構造に記入できます。それはまた
Mapping
であり、FromPath
はこの構造から親のFromPath
ブラスFromPath
です。子部分に、次のような構造があるとします。
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
次のような
Mapping
を指定します。{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields 構造
保持するデータプロパティキーの選択変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Paths
– 必須: UTF-8 文字列の配列。データ構造内の変数へのJSONパス。
DropFields 構造
削除するデータプロパティキーを選択する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Paths
– 必須: UTF-8 文字列の配列。データ構造内の変数へのJSONパス。
RenameField 構造
1 つのデータプロパティキーの名前を変更する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
SourcePath
– 必須: UTF-8 文字列の配列。ソースデータのデータ構造内の変数へのJSONパス。
-
TargetPath
– 必須: UTF-8 文字列の配列。ターゲットデータのデータ構造内の変数へのJSONパス。
スピゴット構造
Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Path
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。Amazon S3 のパス。変換によってデータセットから Amazon S3 バケット内のJSONファイルにレコードのサブセットが書き込まれます。
-
Topk
– 数値 (integer)。100 以下。データセットの先頭から書き込むレコードの数を指定します。
-
Prob
– 数値 (double)。1 以下。特定のレコードを選ぶ確率 (最大値が 1 の 10 進値)。値 1 は、データセットから読み込まれた各行をサンプル出力に含めることを示します。
Join 構造
指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。2~2 個の文字列。ノード名で識別されるデータ入力。
-
JoinType
– 必須: UTF-8 文字列 (有効な値:equijoin="EQUIJOIN"
|left="LEFT"
| |right="RIGHT"
outer="OUTER"
|leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
)。データセットで実行する結合の種類を指定します。
-
Columns
– 必須: JoinColumn オブジェクトの配列。2 個の構造。結合する 2 つの列のリスト。
JoinColumn 構造
結合する列を指定します。
フィールド
-
From
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。結合する列。
-
Keys
– 必須: UTF-8 文字列の配列。結合される列のキー。
SplitFields 構造
データプロパティキーを 2 つの DynamicFrames
に分割する変換を指定します。出力は DynamicFrames
のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Paths
– 必須: UTF-8 文字列の配列。データ構造内の変数へのJSONパス。
SelectFromCollection 構造
DynamicFrame
のコレクションから 1 つの DynamicFrames
を選択するトランスフォームを指定します。出力は選択された DynamicFrame
です。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Index
– 必須: 数値 (integer)。None 以下。選択した のインデックス DynamicFrame 。
FillMissingValues 構造
変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
ImputedPath
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。帰属されるデータセットのデータ構造内の変数へのJSONパス。
-
FilledPath
– UTF-8 文字列。 に一致Custom string pattern #43。塗りつぶされたデータセットのデータ構造内の変数へのJSONパス。
Filter 構造
フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
LogicalOperator
– 必須: UTF-8 文字列 (有効な値:AND
|OR
)。キー値を指定値と比較して行をフィルタリングするために使用される演算子。
-
Filters
– 必須: FilterExpression オブジェクトの配列。フィルタ式を指定します。
FilterExpression 構造
フィルタ式を指定します。
フィールド
-
Operation
– 必須: UTF-8 文字列 (有効な値:EQ
|LT
| |GT
LTE
|GTE
|REGEX
|ISNULL
)。表現で実行するオペレーションの種類。
-
Negated
– ブール。その表現を無効にするかどうか。
-
Values
– 必須: FilterValue オブジェクトの配列。フィルタ値のリスト。
FilterValue 構造
FilterExpression
の値リストにある単一のエントリを表します。
フィールド
-
Type
– 必須: UTF-8 文字列 (有効な値:COLUMNEXTRACTED
|CONSTANT
)。フィルター値のタイプ。
-
Value
– 必須: UTF-8 文字列の配列。関連させる値。
CustomCode 構造
データ変換を実行するためにカスタムコードを使用する変換を指定します。出力は のコレクションです DynamicFrames。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。少なくとも 1 個の文字列。ノード名で識別されるデータ入力。
-
Code
– 必須: UTF-8 文字列、 に一致Custom string pattern #36。データ変換を実行するために使用されるカスタムコード。
-
ClassName
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。カスタムコードノードクラスに定義された名前。
-
OutputSchemas
– GlueSchema オブジェクトの配列。カスタムコード変換用のデータスキーマを指定します。
SparkSQL 構造
Spark SQL構文を使用してデータを変換するSQLクエリを入力する変換を指定します。出力は、単一の DynamicFrame
です。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。少なくとも 1 個の文字列。ノード名で識別されるデータ入力。SQL クエリで使用する各入力ノードにテーブル名を関連付けることができます。選択する名前は、Spark のSQL命名制限を満たす必要があります。
-
SqlQuery
– 必須: UTF-8 文字列。 に一致Custom string pattern #44。Spark SQL構文を使用し、単一のデータセットを返す必要があるSQLクエリ。
-
SqlAliases
– 必須: SqlAlias オブジェクトの配列。エイリアスのリスト。エイリアスを使用すると、特定の入力SQLに対して で使用する名前を指定できます。例えば、「」という名前のデータソースがあるとしますMyDataSource。
From
を に MyDataSource、 をAlias
に指定した場合 SqlName、 で次のSQLことができます。select * from SqlName
および は からデータを取得します MyDataSource。
-
OutputSchemas
– GlueSchema オブジェクトの配列。SparkSQL 変換のデータスキーマを指定します。
SqlAlias 構造
SqlAliases
の値リストにある単一のエントリを表します。
フィールド
-
From
– 必須: UTF-8 文字列。 に一致Custom string pattern #42。テーブルまたはテーブル内の列。
-
Alias
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。テーブルまたはテーブル内の列に与えられた一時的な名前。
DropNullFields 構造
列のすべての値がNullである場合に、データセットから列を削除する変換を指定します。デフォルトでは、 AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、「null」である文字列、-1 整数、またはゼロなどの他のプレースホルダーなどの一部の値は、自動的に null として認識されません。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
NullCheckBoxList
– NullCheckBoxList オブジェクト。特定の値が削除のために Null 値として認識されるかどうかを表す構造。
-
NullTextList
– NullValueField オブジェクトの配列。構造 50 個以下。データセットに固有の Null プレースホルダーとして使用される 0 やその他の値など、カスタム Null 値を表す NullValueField 構造のリストを指定する構造。
Null プレースホルダの値とデータタイプの両方がデータと一致する場合にのみ、
DropNullFields
変換でカスタム NULL 値を削除します。
NullCheckBoxList 構造
特定の値が削除の Null 値として認識されるかどうかを表します。
フィールド
-
IsEmpty
– ブール。空の文字列を Null 値と見なすことを指定します。
-
IsNullString
– ブール。Null の単語を綴る値をNull値と見なすことを指定します。
-
IsNegOne
– ブール。-1 の整数値が Null 値と見なすことを指定します。
NullValueField 構造
データセットに固有の Null プレースホルダとして使用される 0 や他の値などのカスタムの Null 値を表します。
フィールド
-
Value
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。Null プレースホルダの値。
-
Datatype
– 必須: Datatype オブジェクト。値のデータタイプ。
Datatype 構造
値のデータタイプを表す構造。
フィールド
-
Id
– 必須: UTF-8 文字列。 に一致Custom string pattern #42。値のデータタイプ。
-
Label
– 必須: UTF-8 文字列。 に一致Custom string pattern #42。データタイプに割り当てられたラベル。
Merge 構造
レコードを識別するために、DynamicFrame
プライマリキーに基づく DynamicFrame
ステージングに結合変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。2~2 個の文字列。ノード名で識別されるデータ入力。
-
Source
– 必須: UTF-8 文字列。 に一致Custom string pattern #42。DynamicFrame
ステージングと結合するDynamicFrame
ソース。 -
PrimaryKeys
– 必須: UTF-8 文字列の配列。ソースおよびステージング動的フレームからのレコードを照合するプライマリキーフィールドのリスト。
Union 構造
2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。2~2 個の文字列。変換用のノード ID 入力。
-
UnionType
– 必須: UTF-8 文字列 (有効な値:ALL
|DISTINCT
)。Union 変換のタイプを示します。
データソースのすべての行
ALL
を結果の に結合するには、 を指定します DynamicFrame。結果として生じるユニオンでは、重複する行は削除されません。DISTINCT
結果の で重複する行を削除するには、 を指定します DynamicFrame。
PIIDetection 構造
PII データを識別、削除、またはマスクする変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致しますCustom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。変換用のノード ID 入力。
-
PiiType
– 必須: UTF-8 文字列 (有効な値:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
)。PIIDetection 変換のタイプを示します。
-
EntityTypesToDetect
– 必須: UTF-8 文字列の配列。PIIDetection 変換がPIIデータとして識別するエンティティのタイプを示します。
PII タイプエンティティには、PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_、PASSPORT_NUMBER、PHONE_NUMBER、IP_ADDRESS、MAC_ACCOUNT、BANK_ADDRESS_、USACPT__CODE、USA_HCPCS_CODE、USANATIONAL_DRUG_CODE、USAMEDICARE__BENEFICIARY_IDENTIFIER、___、USA_HEALTHINSURANCE__NUMBER、__、_CLAIM_CARD_、CREDIT__、__、___、___IDENTIFIER、USANATIONAL___、PROVIDER_USA__、____、__NUMBER__、DEA____、___、_USA___、DRIVING_____LICENSE
-
OutputColumnName
– UTF-8 文字列。 に一致Custom string pattern #43。その行で検出されたエンティティタイプを含む、すべての出力列名を示します。
-
SampleFraction
– 数値 (double)。1 以下。PII エンティティのスキャン時にサンプリングするデータの割合を示します。
-
ThresholdFraction
– 数値 (double)。1 以下。列をデータとして識別するために満たす必要があるPIIデータの割合を示します。
-
MaskValue
– UTF-8 文字列、256 バイト長以下、 に一致Custom string pattern #40。検出されたエンティティを置き換える値を示します。
Aggregate 構造
選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。集約変換の入力として使用するフィールドと行を指定します。
-
Groups
– 必須: UTF-8 文字列の配列。グループ化に使用するフィールドを指定します。
-
Aggs
– 必須: AggregateOperation オブジェクトの配列、1~30 個の構造。指定したフィールドで実行する集計関数を指定します。
DropDuplicates 構造
繰り返しデータの行をデータセットから削除する変換を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。変換ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。ノード名で識別されるデータ入力。
-
Columns
– UTF-8 文字列の配列。繰り返しがある場合に、それをマージまたは削除する列の名前。
GovernedCatalogTarget 構造
Data Catalog を使用して Amazon S3 に書き込む AWS Glue データターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データターゲットの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
-
PartitionKeys
– UTF-8 文字列の配列。一連のキーを使用してネイティブパーティショニングを指定します。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベーステーブルの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。書き込むデータベースの名前。
-
SchemaChangePolicy
– CatalogSchemaChangePolicy オブジェクト。管理されたカタログを更新する際の動作を指定するポリシー。
GovernedCatalogSource 構造
管理対象データカタログ内の AWS Glue データストアを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データストアの名前。
-
Database
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み込むデータベース。
-
Table
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。読み取り元のデータベーステーブル。
-
PartitionPredicate
– UTF-8 文字列。 に一致Custom string pattern #43。この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。
""
を設定 – デフォルトでは空です。 -
AdditionalOptions
– S3SourceAdditionalOptions オブジェクト。追加の接続オプションを指定します。
AggregateOperation 構造
集約変換で集約を実行するために必要なパラメータのセットを指定します。
フィールド
-
Column
– 必須: UTF-8 文字列の配列。集計関数を適用するデータセットの列を指定します。
-
AggFunc
– 必須: UTF-8 文字列 (有効な値:avg
| |countDistinct
|count
|first
|last
|kurtosis
|max
|min
|skewness
stddev_samp
|stddev_pop
|sum
sumDistinct
|var_samp
| |var_pop
)。適用する集計関数を指定します。
可能な集計関数には、avg countDistinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop などがあります。
GlueSchema 構造
AWS Glueでスキーマを決定できない場合に、ユーザー定義のスキーマを指定します。
フィールド
-
Columns
– GlueStudioSchemaColumn オブジェクトの配列。AWS Glue スキーマを構成する列定義を指定します。
GlueStudioSchemaColumn 構造
AWS Glue スキーマ定義の 1 つの列を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、1024 バイト長以下、 に一致Single-line string pattern。AWS Glue Studio スキーマの列の名前。
-
Type
– UTF-8 文字列、131072 バイト長以下、 に一致Single-line string pattern。AWS Glue Studio スキーマ内のこの列の hive タイプ。
GlueStudioColumn 構造
AWS Glue Studio で 1 つの列を指定します。
フィールド
-
Key
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。AWS Glue Studio の列のキー。
-
FullPath
– 必須: UTF-8 文字列の配列。TThe AWS Glue Studio URL の 列がいっぱいです。
-
Type
– 必須: UTF-8 文字列 (有効な値:array="ARRAY"
|bigint="BIGINT"
|bigint array="BIGINT_ARRAY"
| |binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
| |byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
date="DATE"
|date array="DATE_ARRAY"
| |decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
float="FLOAT"
|float array="FLOAT_ARRAY"
int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
long="LONG"
| |long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
| | | | | | | | | | | | |short array="SHORT_ARRAY"
smallint="SMALLINT"
smallint array="SMALLINT_ARRAY"
string="STRING"
string array="STRING_ARRAY"
timestamp="TIMESTAMP"
timestamp array="TIMESTAMP_ARRAY"
tinyint="TINYINT"
tinyint array="TINYINT_ARRAY"
varchar="VARCHAR"
varchar array="VARCHAR_ARRAY"
null="NULL"
| | | | | |unknown="UNKNOWN"
| | | | | |unknown array="UNKNOWN_ARRAY"
)。TThe AWS Glue Studio の列のタイプ。
-
Children
– 構造の配列。TThe AWS Glue Studio の親列の子。
DynamicTransform 構造
動的変換を実行するために必要なパラメータのセットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。動的変換の名前を指定します。
-
TransformName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。AWS Glue Studio ビジュアルエディタに表示される動的変換の名前を指定します。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。必要な動的変換の入力を指定します。
-
Parameters
– TransformConfigParameter オブジェクトの配列。動的変換のパラメータを指定します。
-
FunctionName
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。動的変換の関数の名前を指定します。
-
Path
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。動的変換ソースファイルおよび設定ファイルのパスを指定します。
-
Version
– UTF-8 文字列。 に一致Custom string pattern #43。このフィールドは使用されず、将来のリリースで非推奨となります。
-
OutputSchemas
– GlueSchema オブジェクトの配列。動的変換用のデータスキーマを指定します。
TransformConfigParameter 構造
動的変換の設定ファイル内のパラメータを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。動的変換の設定ファイル内のパラメータの名前を指定します。
-
Type
– 必須: UTF-8 文字列 (有効な値:str="STR"
|int="INT"
| |float="FLOAT"
complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
)。動的変換の設定ファイル内のパラメータタイプを指定します。
-
ValidationRule
– UTF-8 文字列。 に一致Custom string pattern #43。動的変換の設定ファイル内の検証ルールを指定します。
-
ValidationMessage
– UTF-8 文字列。 に一致Custom string pattern #43。動的変換の設定ファイル内の検証メッセージを指定します。
-
Value
– UTF-8 文字列の配列。動的変換の設定ファイル内のパラメータの値を指定します。
-
ListType
– UTF-8 文字列 (有効な値:str="STR"
|int="INT"
| |float="FLOAT"
|complex="COMPLEX"
bool="BOOL"
|list="LIST"
|null="NULL"
)。動的変換の設定ファイル内のパラメータのリスト型を指定します。
-
IsOptional
– ブール。動的変換の設定ファイル内のパラメータがオプションかどうかを指定します。
EvaluateDataQuality 構造
データ品質評価基準を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列、 に一致Custom string pattern #45。データ品質評価の名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。データ品質評価の入力。
-
Ruleset
– 必須: UTF-8 文字列、1~65536 バイト長、 に一致Custom string pattern #41。データ品質評価のルールセット。
-
Output
– UTF-8 文字列 (有効な値:PrimaryInput
|EvaluationResults
)。データ品質評価の出力。
-
PublishingOptions
– DQResultsPublishingOptions オブジェクト。結果の発行方法を設定するオプション。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions オブジェクト。データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
DQResultsPublishingOptions 構造
データ品質評価の結果の発行方法を設定するオプション。
フィールド
-
EvaluationContext
– UTF-8 文字列。 に一致Custom string pattern #42。評価のコンテキスト。
-
ResultsS3Prefix
– UTF-8 文字列。 に一致しますCustom string pattern #43。結果に追加された Amazon S3 プレフィックス。
-
CloudWatchMetricsEnabled
– ブール。データ品質結果のメトリクスを有効にします。
-
ResultsPublishingEnabled
– ブール。データ品質結果の発行を有効にします。
DQStopJobOnFailureOptions 構造
データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
フィールド
-
StopJobOnFailureTiming
– UTF-8 文字列 (有効な値:Immediate
|AfterDataLoad
)。データ品質評価が失敗した場合にジョブを停止するタイミング。オプションは即時または です AfterDataLoad。
EvaluateDataQualityMultiFrame 構造
データ品質評価基準を指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。データ品質評価の名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列、少なくとも 1 個の文字列。データ品質評価の入力。このリストにおける最初の入力はプライマリデータソースです。
-
AdditionalDataSources
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #45。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
プライマリを除くすべてのデータソースのエイリアス。
-
Ruleset
– 必須: UTF-8 文字列、1~65536 バイト長、 に一致Custom string pattern #41。データ品質評価のルールセット。
-
PublishingOptions
– DQResultsPublishingOptions オブジェクト。結果の発行方法を設定するオプション。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列です (有効な値:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
)。各値は UTF-8 文字列です。
変換のランタイム動作を設定するオプション。
-
StopJobOnFailureOptions
– DQStopJobOnFailureOptions オブジェクト。データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。
Recipe 構造
AWS Glue ジョブで AWS Glue DataBrew recipe を使用する AWS Glue Studio ノード。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。AWS Glue Studio ノードの名前。
-
Inputs
– 必須: UTF-8 個の文字列の配列。1~1 個の文字列。レシピノードへの入力となるノード。これは ID によって識別されます。
-
RecipeReference
– RecipeReference オブジェクト。ノードで使用される DataBrew レシピへの参照。
-
RecipeSteps
– RecipeStep オブジェクトの配列。レシピノードで使用される変換ステップ。
RecipeReference 構造
AWS Glue DataBrew レシピへの参照。
フィールド
-
RecipeArn
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。DataBrew レシピARNの 。
-
RecipeVersion
– 必須: UTF-8 文字列、1~16 バイト長。DataBrew レシピ RecipeVersion の 。
SnowflakeNodeData 構造
AWS Glue Studio の Snowflake ノードの設定を指定します。
フィールド
-
SourceType
– UTF-8 文字列。 に一致Custom string pattern #42。取得したデータの指定方法を指定します。有効な値:
"table"
、"query"
。 -
Connection
– オプション オブジェクト。Snowflake エンドポイントへの AWS Glue データカタログ接続を指定します。
-
Schema
– UTF-8 文字列。ノードが使用する Snowflake データベーススキーマを指定します。
-
Table
– UTF-8 文字列。ノードが使用する Snowflake テーブルを指定します。
-
Database
– UTF-8 文字列。ノードが使用する Snowflake データベースを指定します。
-
TempDir
– UTF-8 文字列。 に一致Custom string pattern #43。現在使用されていません。
-
IamRole
– オプション オブジェクト。現在使用されていません。
-
AdditionalOptions
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、 と一致しますCustom string pattern #43。
各値は UTF-8 文字列で、 と一致しますCustom string pattern #43。
Snowflake コネクタに渡される追加オプションを指定します。ノードの他の場所でオプションが指定されている場合、こちらが優先されます。
-
SampleQuery
– UTF-8 文字列。query
ソースタイプのデータを取得するために使用されるSQL文字列。 -
PreAction
– UTF-8 文字列。Snowflake コネクタが標準アクションを実行する前に実行されるSQL文字列。
-
PostAction
– UTF-8 文字列。Snowflake コネクタが標準アクションを実行した後に実行されるSQL文字列。
-
Action
– UTF-8 文字列。既存のデータを持つテーブルに書き込むときに実行するアクションを指定します。有効な値は、
append
、merge
、truncate
、drop
です。 -
Upsert
– ブール。アクションが
append
の場合に使用します。行が既に存在する場合の解決動作を指定します。true の場合、既存の行が更新されます。false の場合、それらの行が挿入されます。 -
MergeAction
– UTF-8 文字列。 に一致Custom string pattern #42。マージアクションを指定します。有効な値:
simple
、custom
。simple の場合、マージ動作はMergeWhenMatched
とMergeWhenNotMatched
によって定義されます。custom の場合、MergeClause
によって定義されます。 -
MergeWhenMatched
– UTF-8 文字列。 に一致Custom string pattern #42。マージ時に既存のデータと一致するレコードを解決する方法を指定します。有効な値:
update
、delete
。 -
MergeWhenNotMatched
– UTF-8 文字列。 に一致Custom string pattern #42。マージ時に既存のデータと一致しないレコードを処理する方法を指定します。有効な値:
insert
、none
。 -
MergeClause
– UTF-8 文字列。カスタムマージ動作を指定するSQLステートメント。
-
StagingTable
– UTF-8 文字列。merge
または upsert を行うappend
アクションを実行するときに使用されるステージングテーブルの名前。データはこのテーブルに書き込まれ、生成されたポストアクションによってtable
に移動されます。 -
SelectedColumns
– オプション オブジェクトの配列。マージや upsert の一致を検出するときに、レコードを識別するために組み合わせる列を指定します。
value
、label
、description
キーを使用する構造のリストです。各構造は列を記述します。 -
AutoPushdown
– ブール。自動クエリプッシュダウンを有効にするかどうかを指定します。プッシュダウンが有効になっている場合、Spark でクエリを実行すると、クエリの一部が Snowflake サーバーに「プッシュダウン」できる場合にクエリがプッシュダウンされます。これにより、一部のクエリのパフォーマンスが向上します。
-
TableSchema
– オプション オブジェクトの配列。ノードのターゲットスキーマを手動で定義します。
value
、label
、description
キーを使用する構造のリストです。各構造は列を定義します。
SnowflakeSource 構造
Snowflake データソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。Snowflake データソースの名前。
-
Data
– 必須: SnowflakeNodeData オブジェクト。Snowflake データソースの設定。
-
OutputSchemas
– GlueSchema オブジェクトの配列。出力データのユーザー定義スキーマを指定します。
SnowflakeTarget 構造
Snowflake ターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。Snowflake ターゲットの名前。
-
Data
– 必須: SnowflakeNodeData オブジェクト。Snowflake ターゲットノードのデータを指定します。
-
Inputs
– UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
ConnectorDataSource 構造
標準の接続オプションを使用して生成されたソースを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。このソースノードの名前。
-
ConnectionType
– 必須: UTF-8 文字列。 に一致Custom string pattern #43。基盤となる AWS Glue ライブラリ
connectionType
に提供される 。ノードタイプアは、次の接続タイプをサポートします。-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列です。
各値は UTF-8 文字列です。
ノードの接続オプションを指定するマップ。対応する接続タイプの標準接続オプションは、 AWS Glue ドキュメントの「接続パラメータ」セクションにあります。
-
OutputSchemas
– GlueSchema オブジェクトの配列。このソース用のデータスキーマを指定します。
ConnectorDataTarget 構造
標準の接続オプションを使用して生成されたターゲットを指定します。
フィールド
-
Name
– 必須: UTF-8 文字列。 に一致Custom string pattern #45。このターゲットノードの名前。
-
ConnectionType
– 必須: UTF-8 文字列、 に一致Custom string pattern #43。基盤となる AWS Glue ライブラリ
connectionType
に提供される 。ノードタイプアは、次の接続タイプをサポートします。-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– 必須: キーバリューペアのマップ配列。各キーは UTF-8 文字列です。
各値は UTF-8 文字列です。
ノードの接続オプションを指定するマップ。対応する接続タイプの標準接続オプションは、 AWS Glue ドキュメントの「接続パラメータ」セクションにあります。
-
Inputs
– UTF-8 個の文字列の配列。1~1 個の文字列。データターゲットへの入力であるノード。
RecipeStep 構造
AWS Glue Studio データ準備レシピノードで使用されるレシピステップ。
フィールド
-
Action
– 必須: RecipeAction オブジェクト。レシピステップの変換アクション。
-
ConditionExpressions
– ConditionExpression オブジェクトの配列。レシピステップの条件式。
RecipeAction 構造
AWS Glue Studio データ準備レシピノードで定義されたアクション。
フィールド
-
Operation
– 必須: UTF-8 文字列、1~128 バイト長、 に一致Custom string pattern #38。レシピアクションのオペレーション。
-
Parameters
– キーバリューペアのマップ配列。各キーは UTF-8 文字列で、1~128 バイト長で、 と一致しますCustom string pattern #39。
各値は UTF-8 文字列で、1~32,768 バイト長です。
レシピアクションのパラメータ。
ConditionExpression 構造
AWS Glue Studio データ準備レシピノードで定義される条件式。
フィールド
-
Condition
– 必須: UTF-8 文字列、1~128 バイト長、 に一致Custom string pattern #38。条件式の条件。
-
Value
– UTF-8 文字列、1024 バイト長以下。条件式の値。
-
TargetColumn
– 必須: UTF-8 文字列、1~1024 バイト長。条件式のターゲット列。