ビジュアルジョブ API - AWS Glue
 – データタイプ –CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourcejdbcConnectorSourceSparkConnectorSourceCatalogSourceMySQLCatalogSourcePostgreSQLCatalogSourceOracleSQLCatalogSourceMicrosoftSQLServerCatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedShiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionオプションS3CatalogSourceS3SourceAdditionalOptionsS3CsvSourceDirectJDBCSourceS3DirectSourceAdditionalOptionsS3jsonSourceS3parquetSourceS3DeltaSourceS3CatalogDeltaSourceCatalogDeltaSourceS3HudiSourceS3CatalogHudiSourceCatalogHudiSourceDynamoDBCatalogSourceRelationalCatalogSourcejdbcConnectorTargetSparkConnectorTargetBasicCatalogTargetMySQLCatalogTargetPostgreSQLCatalogTargetOracleSQLCatalogTargetMicrosoftSQLServerCatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3CatalogTargetS3GlueParquetTargetCatalogSchemaChangePolicyS3directTargetS3HudiCatalogTargetS3HudiDirectTargetS3DeltaCatalogTargetS3DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMappingSelectFieldsDropFieldsRenameFieldスピゴットJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesフィルターFilterExpressionFilterValueCustomCodeSparkSQLSqlAliasDropNullFieldsNullCheckboxListNullValueFieldDatatype結合UnionPIIDetection集計DropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameレシピRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

ビジュアルジョブ API

ビジュアルジョブ API を使用すると、AWS Glue ジョブのビジュアル設定に対応した JSON オブジェクトから AWS Glue APIを使用して、データ統合ジョブを作成できます。

CodeGenConfigurationNodes のリストは、作成したジョブ用 AWS Glue Studio内のDAG を登録するジョブ API の作成または更新用に提供され、関連するコードを生成します。

データ型

CodeGenConfiguration 構造

CodeGenConfigurationNode は、すべての有効なノードタイプを列挙します。そのメンバー変数は 1 つしか入力できません。

[フィールド]
  • AthenaConnectorSourceAthenaConnectorSource オブジェクト。

    Amazon Athena データソースへのコネクタを指定します。

  • JDBCConnectorSourcejdbcConnectorSource オブジェクト。

    JDBC データソースへのコネクタを指定します。

  • SparkConnectorSourceSparkConnectorSource オブジェクト。

    Apache Spark データソースへのコネクタを指定します。

  • CatalogSourceCatalogSource オブジェクト。

    AWS Glueデータカタログにデータストアを指定します。

  • RedshiftSourceRedShiftSource オブジェクト。

    Amazon Redshift データストアを指定します。

  • S3CatalogSourceS3CatalogSource オブジェクト。

    AWS Glueデータカタログに Amazon S3 データストアを指定します。

  • S3CsvSourceS3CsvSource オブジェクト。

    Amazon S3 に格納されているコマンド区切り値 (CSV) データストアを指定します。

  • S3JsonSourceS3jsonSource オブジェクト。

    Amazon S3 の JSON データストアを指定します。

  • S3ParquetSourceS3parquetSource オブジェクト。

    Amazon S3 に保存されている Apache Parquet データストアを指定します。

  • RelationalCatalogSourceRelationalCatalogSource オブジェクト。

    AWS Glue データカタログ内のリレーショナルカタログデータストアを指定します。

  • DynamoDBCatalogSourceDynamoDBCatalogSource オブジェクト。

    AWS Glue データカタログ内の DynamoDBC カタログデータストアを指定します。

  • JDBCConnectorTargetjdbcConnectorTarget オブジェクト。

    Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。

  • SparkConnectorTargetSparkConnectorTarget オブジェクト。

    Apache Spark コネクタを使用するターゲットを指定します。

  • CatalogTargetBasicCatalogTarget オブジェクト。

    AWS Glue データカタログテーブルを使用するターゲットを指定します。

  • RedshiftTargetRedshiftTarget オブジェクト。

    Amazon Redshift を使用するターゲットを指定します。

  • S3CatalogTargetS3CatalogTarget オブジェクト。

    AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。

  • S3GlueParquetTargetS3GlueParquetTarget オブジェクト。

    Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。

  • S3DirectTargetS3directTarget オブジェクト。

    Amazon S3 に書き込むデータターゲットを指定します。

  • ApplyMappingApplyMapping オブジェクト。

    データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。

  • SelectFieldsSelectFields オブジェクト。

    保持するデータプロパティキーの選択変換を指定します。

  • DropFieldsDropFields オブジェクト。

    削除するデータプロパティキーを選択する変換を指定します。

  • RenameFieldRenameField オブジェクト。

    1 つのデータプロパティキーの名前を変更する変換を指定します。

  • Spigotスピゴット オブジェクト。

    Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。

  • JoinJoin オブジェクト。

    指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。

  • SplitFieldsSplitFields オブジェクト。

    データプロパティキーを 2 つの DynamicFrames に分割する変換を指定します。出力は DynamicFrames のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。

  • SelectFromCollectionSelectFromCollection オブジェクト。

    DynamicFrame のコレクションから 1 つの DynamicFrames を選択するトランスフォームを指定します。出力は選択された DynamicFrame です。

  • FillMissingValuesFillMissingValues オブジェクト。

    変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。

  • Filterフィルター オブジェクト。

    フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。

  • CustomCodeCustomCode オブジェクト。

    データ変換を実行するためにカスタムコードを使用する変換を指定します。結果には、DynamicFrames のコレクションが出力されます。

  • SparkSQLSparkSQL オブジェクト。

    データを変換するためにSpark SQL 構文を使用して、SQL クエリを入力する変換を指定します。出力は、単一の DynamicFrame です。

  • DirectKinesisSourceDirectKinesisSource オブジェクト。

    直接 Amazon Kinesis データソースを指定します。

  • DirectKafkaSourceDirectKafkaSource オブジェクト。

    Apache Kafka データストアを指定します。

  • CatalogKinesisSourceCatalogKinesisSource オブジェクト。

    AWS Glueデータカタログで Kinesis データソースを指定します。

  • CatalogKafkaSourceCatalogKafkaSource オブジェクト。

    データカタログで Apache Kafka データストアを指定します。

  • DropNullFieldsDropNullFields オブジェクト。

    列のすべての値が「null」である場合、データセットから列を削除する変換を指定します。デフォルトでは、AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、『null』が 1 の整数、または 0 などのプレースホルダなどの文字列では、自動的に『null』として認識されません。

  • Merge結合 オブジェクト。

    レコードを識別するために、プライマリキーに基づいて DynamicFrame とステージング DynamicFrame を結合する変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。

  • UnionUnion オブジェクト。

    2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。

  • PIIDetectionPIIDetection オブジェクト。

    PII データを識別、削除、またはマスクする変換を指定します。

  • Aggregate集計 オブジェクト。

    選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。

  • DropDuplicatesDropDuplicates オブジェクト。

    繰り返しデータの行をデータセットから削除する変換を指定します。

  • GovernedCatalogTargetGovernedCatalogTarget オブジェクト。

    管理されたカタログに書き込むデータターゲットを指定します。

  • GovernedCatalogSourceGovernedCatalogSource オブジェクト。

    管理されたデータカタログ内のデータソースを指定します。

  • MicrosoftSQLServerCatalogSourceMicrosoftSQLServerCatalogSource オブジェクト。

    AWS Glueデータカタログ内の Microsoft SQL Server データソースを指定します。

  • MySQLCatalogSourceMySQLCatalogSource オブジェクト。

    AWS Glueデータカタログ内の MySQL データソースを指定します。

  • OracleSQLCatalogSourceOracleSQLCatalogSource オブジェクト。

    AWS Glueデータカタログ内の Oracle データソースを指定します。

  • PostgreSQLCatalogSourcePostgreSQLCatalogSource オブジェクト。

    AWS Glueデータカタログ内の PostgresSQL データソースを指定します。

  • MicrosoftSQLServerCatalogTargetMicrosoftSQLServerCatalogTarget オブジェクト。

    Microsoft SQL を使用するターゲットを指定します。

  • MySQLCatalogTargetMySQLCatalogTarget オブジェクト。

    MySQL を使用するターゲットを指定します。

  • OracleSQLCatalogTargetOracleSQLCatalogTarget オブジェクト。

    Oracle SQL を使用するターゲットを指定します。

  • PostgreSQLCatalogTargetPostgreSQLCatalogTarget オブジェクト。

    Postgres SQL を使用するターゲットを指定します。

  • DynamicTransformDynamicTransform オブジェクト。

    ユーザーが作成したカスタムビジュアル変換を指定します。

  • EvaluateDataQualityEvaluateDataQuality オブジェクト。

    データ品質評価基準を指定します。

  • S3CatalogHudiSourceS3CatalogHudiSource オブジェクト。

    AWS Glue データカタログ内に登録されている Hudi データソースを指定します。データソースは Amazon S3 に保存する必要があります。

  • CatalogHudiSourceCatalogHudiSource オブジェクト。

    AWS Glue データカタログ内に登録されている Hudi データソースを指定します。

  • S3HudiSourceS3HudiSource オブジェクト。

    Amazon S3 内に保存されている Hudi データソースを指定します。

  • S3HudiCatalogTargetS3HudiCatalogTarget オブジェクト。

    AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。

  • S3HudiDirectTargetS3HudiDirectTarget オブジェクト。

    Amazon S3 内の Hudi データソースに書き込むターゲットを指定します。

  • S3CatalogDeltaSourceS3CatalogDeltaSource オブジェクト。

    AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。データソースは Amazon S3 に保存する必要があります。

  • CatalogDeltaSourceCatalogDeltaSource オブジェクト。

    AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。

  • S3DeltaSourceS3DeltaSource オブジェクト。

    Amazon S3 内に保存されている Delta Lake データソースを指定します。

  • S3DeltaCatalogTargetS3DeltaCatalogTarget オブジェクト。

    AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。

  • S3DeltaDirectTargetS3DeltaDirectTarget オブジェクト。

    Amazon S3 内の Delta Lake データソースに書き込むターゲットを指定します。

  • AmazonRedshiftSourceAmazonRedshiftSource オブジェクト。

    Amazon Redshift 内のデータソースに書き込むターゲットを指定します。

  • AmazonRedshiftTargetAmazonRedshiftTarget オブジェクト。

    Amazon Redshift 内のデータターゲットに書き込むターゲットを指定します。

  • EvaluateDataQualityMultiFrameEvaluateDataQualityMultiFrame オブジェクト。

    データ品質評価基準を指定します。複数の入力データを許可し、DynamicFrames のコレクションを返します。

  • Recipeレシピ オブジェクト。

    AWS Glue DataBrew レシピノードを指定します。

  • SnowflakeSourceSnowflakeSource オブジェクト。

    Snowflake データソースを指定します。

  • SnowflakeTargetSnowflakeTarget オブジェクト。

    Snowflake データソースに書き込むターゲットを指定します。

  • ConnectorDataSourceConnectorDataSource オブジェクト。

    標準の接続オプションを使用して生成されたソースを指定します。

  • ConnectorDataTargetConnectorDataTarget オブジェクト。

    標準の接続オプションを使用して生成されたターゲットを指定します。

JDBCConnectorOptions 構造

コネクタの追加接続オプション。

[フィールド]
  • FilterPredicate– UTF-8 文字列、「Custom string pattern #59」に一致。

    ソースからのデータをフィルタリングする追加の条件句。例:

    BillingCity='Mountain View'

    テーブル名ではなくクエリを使用する場合は、指定された filterPredicate でクエリが動作することを確認します。

  • PartitionColumn– UTF-8 文字列、「Custom string pattern #59」に一致。

    パーティショニングに使用される整数列の名前。このオプションは、lowerBoundupperBound、および numPartitions に含まれている場合にのみ機能します。このオプションの機能は、Spark SQL JDBC リーダーのものと同様です。

  • LowerBound – 数値 (long)。None 以下。

    パーティションストライドを決定するために使用される partitionColumn の最小値を示す整数。

  • UpperBound – 数値 (long)。None 以下。

    パーティションストライドを決定するために使用される partitionColumn の最大値を示す整数。

  • NumPartitions – 数値 (long)。None 以下。

    パーティション数。この値は、lowerBound (範囲に含まれる) と upperBound (範囲に含まれない) とともに使用され、partitionColumn の分割で使用するために生成された WHERE 句の式のためのパーティションストライドを形成します。

  • JobBookmarkKeys – UTF-8 文字列の配列。

    ソートするジョブブックマークキーの名前。

  • JobBookmarkKeysSortOrder– UTF-8 文字列、「Custom string pattern #59」に一致。

    昇順または降順のソート順を指定します。

  • DataTypeMapping – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列 (有効な値: ARRAY | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE | TINYINT | VARBINARY | VARCHAR) です。

    各値は UTF-8 文字列 (有効な値: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT | DOUBLE) です。

    JDBC データタイプ から AWS Glue データタイプに対するマッピングを構築する、カスタムのデータタイプマッピング。例えば、オプション "dataTypeMapping":{"FLOAT":"STRING"} はドライバーの ResultSet.getString() メソッドを呼び出すことで、JDBC タイプの FLOAT のデータフィールドを Java String タイプにマッピングし、それを使用して AWS Glue レコード を構築します。ResultSet オブジェクトは各ドライバによって実装されるため、その動作は使用するドライバにより決定されます。ドライバによる変換の実行方法については、JDBC ドライバのドキュメントを参照してください。

StreamingDataProviewOptions 構造

データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。

[フィールド]
  • PollingTime – 10 以上の数値 (long)。

    ミリ秒単位のポーリング時間。

  • RecordPollingLimit – 1 以上の数値 (long)。

    ポーリングされるレコード数の制限。

AthenaConnectorSource 構造

Amazon Athena データソースへのコネクタを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データソースの名前。

  • ConnectionName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    コネクタに関連付けられている接続の名前。

  • ConnectorName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。

  • ConnectionType – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    marketplace.athena や custom.athena など、Amazon Athena データストアへの接続を指定する接続のタイプ。

  • ConnectionTable– UTF-8 文字列、「Custom string pattern #59」に一致。

    データソース内のテーブルの名前。

  • SchemaName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取り元となる Cloudwatch ロググループの名前。例えば、/aws-glue/jobs/output

  • OutputSchemasGlueSchema オブジェクトの配列。

    カスタム Athena ソース用のデータスキーマを指定します。

JDBCConnectorSource 構造

JDBC データソースへのコネクタを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データソースの名前。

  • ConnectionName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    コネクタに関連付けられている接続の名前。

  • ConnectorName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。

  • ConnectionType – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    marketplace.jdbc や custom.jdbc など、JDBC データストアへの接続を指定する接続のタイプ。

  • AdditionalOptionsJDBCConnectorOptions オブジェクト。

    コネクタの追加接続オプション。

  • ConnectionTable– UTF-8 文字列、「Custom string pattern #59」に一致。

    データソース内のテーブルの名前。

  • Query– UTF-8 文字列、「Custom string pattern #60」に一致。

    データを取得するテーブルまたは SQL クエリ。ConnectionTable または query を指定できます。両方を指定することはできません。

  • OutputSchemasGlueSchema オブジェクトの配列。

    カスタム JDBC ソース用のデータスキーマを指定します。

SparkConnectorSource 構造

Apache Spark データソースへのコネクタを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データソースの名前。

  • ConnectionName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    コネクタに関連付けられている接続の名前。

  • ConnectorName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    AWS Glue Stuido のデータストアへのアクセスを支援するコネクタの名前。

  • ConnectionType – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    marketplace.spark や custom.spark などのApache Spark データストアへの接続を指定する接続のタイプ。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプション。

  • OutputSchemasGlueSchema オブジェクトの配列。

    カスタム Spark ソース用のデータスキーマを指定します。

CatalogSource 構造

AWS Glueデータカタログにデータストアを指定します。

[フィールド]

MySQLCatalogSource 構造

AWS Glueデータカタログ内の MySQL データソースを指定します。

[フィールド]

PostgreSQLCatalogSource 構造

AWS Glueデータカタログ内の PostgresSQL データソースを指定します。

[フィールド]

OracleSQLCatalogSource 構造

AWS Glueデータカタログ内の Oracle データソースを指定します。

[フィールド]

MicrosoftSQLServerCatalogSource 構造

AWS Glueデータカタログ内の Microsoft SQL Server データソースを指定します。

[フィールド]

CatalogKinesisSource 構造

AWS Glueデータカタログで Kinesis データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データソースの名前。

  • WindowSize – 数値 (整数)、None 以下。

    各マイクロバッチの処理にかかる時間。

  • DetectSchema – ブール。

    受信データからスキーマを自動的に決定するかの有無。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • StreamingOptionsKinesisStreamingSourceOptions オブジェクト。

    Kinesis ストリーミングデータソースの追加オプション。

  • DataPreviewOptionsStreamingDataPreviewOptions オブジェクト。

    データプレビューの追加オプション。

DirectKinesisSource 構造

直接 Amazon Kinesis のデータソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データソースの名前。

  • WindowSize – 数値 (整数)、None 以下。

    各マイクロバッチの処理にかかる時間。

  • DetectSchema – ブール。

    受信データからスキーマを自動的に決定するかどうか。

  • StreamingOptionsKinesisStreamingSourceOptions オブジェクト。

    Kinesis ストリーミングデータソースの追加オプション。

  • DataPreviewOptionsStreamingDataPreviewOptions オブジェクト。

    データプレビューの追加オプション。

KinesisStreamingSourceOptions 構造

Amazon Kinesis ストリーミングデータソースの追加オプション。

[フィールド]
  • EndpointUrl– UTF-8 文字列、「Custom string pattern #59」に一致。

    Kinesis エンドポイントの URL。

  • StreamName– UTF-8 文字列、「Custom string pattern #59」に一致。

    Kinesis データストリームの名前。

  • Classification– UTF-8 文字列、「Custom string pattern #59」に一致。

    オプションの分類。

  • Delimiter– UTF-8 文字列、「Custom string pattern #59」に一致。

    区切り記号文字を指定します。

  • StartingPosition – UTF-8 文字列 (有効な値: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" | timestamp="TIMESTAMP")。

    Kinesis データストリーム内の、データの読み取り開始位置。指定できる値は "latest""trim_horizon""earliest"、またはパターン yyyy-mm-ddTHH:MM:SSZ の UTC 形式のタイムスタンプ文字列 (Z は UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00-04:00』) です。デフォルト値は "latest" です。

    注意: 「StartingPosition」の値に UTC 形式のタイムスタンプ文字列を使用できるのは、AWS Glue バージョン 4.0 以降のみです。

  • MaxFetchTimeInMs – 数値 (long)。None 以下。

    ジョブエグゼキューターが Kinesis データストリームから現在のバッチのレコードを読み取るために費やした最大時間は、ミリ秒 (ms) 単位で指定されます。この時間内に複数の GetRecords API コールを行うことができます。デフォルト値は 1000 です。

  • MaxFetchRecordsPerShard – 数値 (long)。None 以下。

    1 マイクロバッチ当たりに Kinesis データストリームでシャードごとにフェッチするレコードの最大数。メモ: ストリーミングジョブが既に Kinesis (同じ get-records 呼び出しで) から余分なレコードを読み取っている場合、クライアントはこの制限を超えることができます。MaxFetchRecordsPerShard が厳密である必要がある場合、MaxRecordPerRead の倍数にする必要があります。デフォルト値は 100000 です。

  • MaxRecordPerRead – 数値 (long)。None 以下。

    各 getRecords オペレーションごとに、Kinesis データストリームからフェッチするレコードの最大数。デフォルト値は 10000 です。

  • AddIdleTimeBetweenReads – ブール。

    2 つの連続する getRecords オペレーション間の遅延時間を追加します。デフォルト値は "False" です。このオプションは、Glue バージョン 2.0 以降でのみ設定可能です。

  • IdleTimeBetweenReadsInMs – 数値 (long)。None 以下。

    2 つの連続する getRecords オペレーション間での、最短の遅延時間 (ミリ秒単位で指定)。デフォルト値は 1000 です。このオプションは、Glue バージョン 2.0 以降でのみ設定可能です。

  • DescribeShardInterval – 数値 (long)。None 以下。

    スクリプトが呼び出す 2 つの ListShards API コール間での、再シャーディングを考慮すべき最小時間。デフォルト値は 1s です。

  • NumRetries – 数値 (整数)、None 以下。

    Kinesis Data Streams API リクエストを再試行する最大の回数。デフォルト値は 3 です。

  • RetryIntervalMs – 数値 (long)。None 以下。

    Kinesis Data Streams API 呼び出しを再試行するまでのクールオフ期間 (ミリ秒単位で指定)。デフォルト値は 1000 です。

  • MaxRetryIntervalMs – 数値 (long)。None 以下。

    再試行で 2 つの Kinesis Data Streams API を呼び出す間の最大クールオフ期間 (ミリ秒単位で指定)。デフォルト値は 10000 です。

  • AvoidEmptyBatches – ブール。

    バッチ処理を開始する前に、Kinesis データストリームで未読のデータをチェックすることで、空のマイクロバッチジョブを作成しないようにします。デフォルト値は "False" です。

  • StreamArn– UTF-8 文字列、「Custom string pattern #59」に一致。

    Kinesis データストリームの Amazon リソースネーム (ARN)。

  • RoleArn– UTF-8 文字列、「Custom string pattern #59」に一致。

    AWS Security Token Service (AWS STS) の使用を引き受けるロールの、Amazon リソースネーム (ARN)。このロールには、Kinesis データストリームのレコードの説明操作または読み取り操作の権限が必要です。このパラメーターは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。"awsSTSSessionName" と組み合わせて使用します。

  • RoleSessionName– UTF-8 文字列、「Custom string pattern #59」に一致。

    AWS STS を使用するロールを引き受ける、セッションの識別子。このパラメータは、別のアカウントのデータストリームにアクセスするときに使用する必要があります。"awsSTSRoleARN" と組み合わせて使用します。

  • AddRecordTimestamp– UTF-8 文字列、「Custom string pattern #59」に一致。

    このオプションが「true」に設定されている場合、データ出力には、対応するレコードがストリームによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。

  • EmitConsumerLagMetrics– UTF-8 文字列、「Custom string pattern #59」に一致。

    このオプションを「true」に設定すると、バッチごとに、ストリームが受信した最も古いレコードと、それが AWS Glue で CloudWatch に到着した時間との間隔のメトリクスが出力されます。メトリクスの名前は「glue.driver.streaming.maxConsumerLagInMs」です。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。

  • StartingTimestamp – UTF-8 文字列。

    データの読み取りを開始する Kinesis データストリーム内のレコードのタイムスタンプ。指定できる値は、パターン yyyy-mm-ddTHH:MM:SSZ のUTC 形式のタイムスタンプ文字列 (Z は UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00+08:00』) です。

CatalogKafkaSource 構造

データカタログで Apache Kafka データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • WindowSize – 数値 (整数)、None 以下。

    各マイクロバッチの処理にかかる時間。

  • DetectSchema – ブール。

    受信データからスキーマを自動的に決定するかの有無。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • StreamingOptionsKafkaStreamingSourceOptions オブジェクト。

    ストリーミングオプションを指定します。

  • DataPreviewOptionsStreamingDataPreviewOptions オブジェクト。

    データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。

DirectKafkaSource 構造

Apache Kafka データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • StreamingOptionsKafkaStreamingSourceOptions オブジェクト。

    ストリーミングオプションを指定します。

  • WindowSize – 数値 (整数)、None 以下。

    各マイクロバッチの処理にかかる時間。

  • DetectSchema – ブール。

    受信データからスキーマを自動的に決定するかどうか。

  • DataPreviewOptionsStreamingDataPreviewOptions オブジェクト。

    データのサンプルを表示するためのデータプレビューに関連するオプションを指定します。

KafkaStreamingSourceOptions 構造

ストリーミングの追加オプション。

[フィールド]
  • BootstrapServers– UTF-8 文字列、「Custom string pattern #59」に一致。

    ブートストラップサーバーの URL のリスト (例: b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094)。このオプションは API 呼び出しで指定するか、データカタログ内のテーブルメタデータで定義する必要があります。

  • SecurityProtocol– UTF-8 文字列、「Custom string pattern #59」に一致。

    ブローカーと通信するために使用されるプロトコル。使用できる値は、"SSL" または "PLAINTEXT" です。

  • ConnectionName– UTF-8 文字列、「Custom string pattern #59」に一致。

    コレクションの名前。

  • TopicName– UTF-8 文字列、「Custom string pattern #59」に一致。

    Apache Kafka で指定されたトピック名。少なくくとも "topicName""assign""subscribePattern" の内いずれかを指定する必要があります。

  • Assign– UTF-8 文字列、「Custom string pattern #59」に一致。

    消費する特有の TopicPartitions。少なくくとも "topicName""assign""subscribePattern" の内いずれかを指定する必要があります。

  • SubscribePattern– UTF-8 文字列、「Custom string pattern #59」に一致。

    サブスクライブする先のトピックリストを識別する Java の正規表現文字列。少なくくとも "topicName""assign""subscribePattern" の内いずれかを指定する必要があります。

  • Classification– UTF-8 文字列、「Custom string pattern #59」に一致。

    オプションの分類。

  • Delimiter– UTF-8 文字列、「Custom string pattern #59」に一致。

    区切り記号文字を指定します。

  • StartingOffsets– UTF-8 文字列、「Custom string pattern #59」に一致。

    Kafka トピック内で、データの読み取りを開始する位置。使用できる値は、"earliest" または "latest" です。デフォルト値は "latest" です。

  • EndingOffsets– UTF-8 文字列、「Custom string pattern #59」に一致。

    バッチクエリの終了位置。設定が可能な値は、"latest" または、各 TopicPartition の終了オフセットを指定する JSON 文字列のいずれかです。

  • PollTimeoutMs – 数値 (long)。None 以下。

    Spark ジョブエグゼキュータで、Kafka からデータをポーリングする際のタイムアウト値 (ミリ秒単位)。デフォルト値は 512 です。

  • NumRetries – 数値 (整数)、None 以下。

    Kafka オフセットのフェッチが失敗したと判断される前の再試行回数。デフォルト値は 3 です。

  • RetryIntervalMs – 数値 (long)。None 以下。

    Kafka オフセットのフェッチを開始するまでの待機時間 (ミリ秒)。デフォルト値は 10 です。

  • MaxOffsetsPerTrigger – 数値 (long)。None 以下。

    処理されるオフセットの最大数を、トリガー間隔ごとのレート上限で指定する値。指定されたオフセットの合計数は、異なるボリュームの topicPartitions 間で均等に分割されます。デフォルト値はnullです。この場合、コンシューマーは既知の最新のオフセットまで、すべてのオフセットを読み取ります。

  • MinPartitions – 数値 (整数)、None 以下。

    Kafka から読み取ることを想定する、最小のパーティション数。デフォルト値はnullです。これは、Spark パーティションの数が Kafka パーティションの数に等しいことを意味します。

  • IncludeHeaders – ブール。

    Kafka ヘッダーを含めるかどうかを決定します。このオプションが『true』に設定されている場合、データ出力には、『glue_streaming_kafka_headers』という名前で Array[Struct(key: String, value: String)] タイプの列が追加されます。デフォルト値は『false』です。このオプションは AWS Glue バージョン 3.0 以降でのみ使用可能です。

  • AddRecordTimestamp– UTF-8 文字列、「Custom string pattern #59」に一致。

    このオプションが「true」に設定されている場合、データ出力には、対応するレコードがトピックによって受信された時刻を表示する「__src_timestamp」という名前が付けられた追加の列が含まれます。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。

  • EmitConsumerLagMetrics– UTF-8 文字列、「Custom string pattern #59」に一致。

    このオプションを 'true' に設定すると、バッチごとに、トピックが受信した最も古いレコードと、それが AWS Glue で CloudWatch に到着した時間との間隔のメトリクススが出力されます。メトリクスの名前は「glue.driver.streaming.maxConsumerLagInMs」です。デフォルト値は、「false」です。このオプションは AWS Glue バージョン 4.0 以降でサポートされています。

  • StartingTimestamp – UTF-8 文字列。

    データの読み取りを開始する Kafka トピック内のレコードのタイムスタンプ。指定できる値は、パターン yyyy-mm-ddTHH:MM:SSZ のUTC 形式のタイムスタンプ文字列 (Z は UTC タイムゾーンのオフセットを +/- で表します。例: 『2023-04-04T08:00:00+08:00』) です。

    StartingTimestamp または StartingOffsets のいずれかのみを設定する必要があります。

RedShiftSource 構造

Amazon Redshift データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Amazon Redshift データストアの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み込むデータベース。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取り元のデータベーステーブル。

  • RedshiftTmpDir– UTF-8 文字列、「Custom string pattern #59」に一致。

    データベースからコピーするときに一時データをステージングできる Amazon S3 パス。

  • TmpDirIAMRole– UTF-8 文字列、「Custom string pattern #59」に一致。

    アクセス許可を持つ IAM ロール。

AmazonRedshiftSource 構造

Amazon Redshift ソースを指定します。

[フィールド]

AmazonRedshiftNodeData 構造

Amazon Redshift ノードを指定します。

[フィールド]
  • AccessType– UTF-8 文字列、「Custom string pattern #58」に一致。

    Redshift 接続のアクセスタイプ。直接接続またはカタログ接続が可能です。

  • SourceType– UTF-8 文字列、「Custom string pattern #58」に一致。

    特定のテーブルがソースかカスタムクエリかを指定するソースタイプ。

  • Connectionオプション オブジェクト。

    Redshift クラスターへの AWS Glue の接続。

  • Schemaオプション オブジェクト。

    直接接続で作業するときの Redshift スキーマの名前。

  • Tableオプション オブジェクト。

    直接接続で作業するときの Redshift テーブルの名前。

  • CatalogDatabaseオプション オブジェクト。

    データカタログで作業するときの AWS Glue データカタログデータベースの名前。

  • CatalogTableオプション オブジェクト。

    データカタログで作業するときの AWS Glue データカタログテーブルの名前。

  • CatalogRedshiftSchema – UTF-8 文字列。

    データカタログで作業するときの Redshift スキーマの名前。

  • CatalogRedshiftTable – UTF-8 文字列。

    読み取り元のデータベーステーブル。

  • TempDir– UTF-8 文字列、「Custom string pattern #59」に一致。

    データベースからコピーするときに一時データをステージングできる Amazon S3 パス。

  • IamRoleオプション オブジェクト。

    オプション。S3 に接続するときに使用するロールの名前。空欄のままにすると、IAM ロールはデフォルトでジョブのロールになります。

  • AdvancedOptionsAmazonRedshiftAdvancedOption オブジェクトの配列。

    Redshift クラスターに接続するときのオプションの値。

  • SampleQuery – UTF-8 文字列。

    SourceType が「query」の場合に Redshift ソースからデータを取得するために使用される SQL。

  • PreAction – UTF-8 文字列。

    upsert を用いる MERGE または APPEND を実行する前に使用される SQL。

  • PostAction – UTF-8 文字列。

    upsert を用いる MERGE または APPEND を実行する前に使用される SQL。

  • Action – UTF-8 文字列。

    Redshift クラスターへの書き込み方法を指定します。

  • TablePrefix– UTF-8 文字列、「Custom string pattern #58」に一致。

    テーブルへのプレフィックスを指定します。

  • Upsert – ブール。

    APPEND を実行するときに Redshift シンクで使用するアクション。

  • MergeAction– UTF-8 文字列、「Custom string pattern #58」に一致。

    Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。

  • MergeWhenMatched– UTF-8 文字列、「Custom string pattern #58」に一致。

    既存のレコードが新しいレコードと一致する場合、Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。

  • MergeWhenNotMatched– UTF-8 文字列、「Custom string pattern #58」に一致。

    既存のレコードが新しいレコードと一致しない場合、Redshift シンク内の MERGE の処理方法を決定するときに使用するアクション。

  • MergeClause – UTF-8 文字列。

    一致するレコードを処理するためにカスタムマージで使用される SQL。

  • CrawlerConnection – UTF-8 文字列。

    使用するカタログテーブルに関連する接続の名前を指定します。

  • TableSchemaオプション オブジェクトの配列。

    特定のノードにおけるスキーマ出力の配列。

  • StagingTable – UTF-8 文字列。

    upsert を用いる MERGE または APPEND を実行するときに使用する一時的なステージングテーブルの名前。

  • SelectedColumnsオプション オブジェクトの配列。

    upsert を用いる MERGE または APPEND を実行するときに、一致するレコードを決定するために使用する列の名前のリスト。

AmazonRedshiftAdvancedOption 構造

Redshift クラスターに接続するときのオプションの値を指定します。

[フィールド]
  • Key – UTF-8 文字列。

    追加接続オプションのキー。

  • Value – UTF-8 文字列。

    追加接続オプションの値。

Option 構造

オプションの値を指定します。

[フィールド]

S3CatalogSource 構造

AWS Glueデータカタログに Amazon S3 データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み込むデータベース。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取り元のデータベーステーブル。

  • PartitionPredicate– UTF-8 文字列、「Custom string pattern #59」に一致。

    この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。"" を設定 – デフォルトでは空です。

  • AdditionalOptionsS3SourceAdditionalOptions オブジェクト。

    追加の接続オプションを指定します。

S3SourceAdditionalOptions 構造

Amazon S3 データストアの追加の接続オプションを指定します。

[フィールド]
  • BoundedSize – 数値 (long)。

    処理されるバイトのデータセットのターゲットサイズの上限を設定します。

  • BoundedFiles – 数値 (long)。

    処理されるファイルのターゲット数の上限を設定します。

S3CsvSource 構造

Amazon S3 に格納されているコマンド区切り値 (CSV) データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • Paths – 必須: UTF-8 文字列の配列。

    読み取りのソースとなる Amazon S3 パスのリスト。

  • CompressionType – UTF-8 文字列 (有効な値: gzip="GZIP" | bzip2="BZIP2")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Exclusions – UTF-8 文字列の配列。

    除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。

  • GroupSize– UTF-8 文字列、「Custom string pattern #59」に一致。

    ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、"groupFiles""inPartition" に設定する必要があります。

  • GroupFiles– UTF-8 文字列、「Custom string pattern #59」に一致。

    入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを "none" に設定します。

  • Recurse – ブール。

    true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。

  • MaxBand – 数値 (整数)、None 以下。

    このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。

  • MaxFilesInBand – 数値 (整数)、None 以下。

    このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。

  • AdditionalOptionsS3DirectSourceAdditionalOptions オブジェクト。

    追加の接続オプションを指定します。

  • Separator必須: UTF-8 文字列 (有効な値: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" | tab="TAB")。

    区切り記号文字を指定します。デフォルトではカンマ: 『,』 ですが、他の任意の文字を指定できます。

  • Escaper– UTF-8 文字列、「Custom string pattern #59」に一致。

    エスケープに使用する文字を指定します。このオプションは、CSV ファイルを読み取る場合にのみ使用します。デフォルト値は none です。有効にすると、直後の文字はそのまま使用されます。ただし、よく知られている小さいエスケープセット (\n\r\t\0) を除きます。

  • QuoteChar必須: UTF-8 文字列 (有効な値: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | disabled="DISABLED")。

    引用に使用する文字を指定します。デフォルト値は二重引用符 '"' です。これに -1 を設定すると、全体的に引用が無効になります。

  • Multiline – ブール。

    単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は False であり、解析時によりアグレッシブなファイル分割を可能にします。

  • WithHeader – ブール。

    最初の行をヘッダーとして扱うかどうかを指定するブール値。デフォルト値は False です。

  • WriteHeader – ブール。

    ヘッダーを出力に書き込むかどうかを指定するブール値。デフォルト値は True です。

  • SkipFirst – ブール。

    最初のデータ行をスキップするかどうかを指定するブール値。デフォルト値は False です。

  • OptimizePerformance – ブール。

    高度な SIMD CSV リーダーで、Apache Arrow ベースの列指向メモリ形式を使用するかどうかを指定するブール値。AWS Glue‬ バージョン 3.0 でのみ使用可能

  • OutputSchemasGlueSchema オブジェクトの配列。

    S3 CSV ソース用のデータスキーマを指定します。

DirectJDBCSource 構造

直接 JDBC ソース接続を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    JDBC ソース接続の名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    JDBC ソース接続のデータベース。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    JDBC ソース接続のテーブル。

  • ConnectionName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    JDBC ソースの接続名。

  • ConnectionType必須: UTF-8 文字列 (有効な値: sqlserver | mysql | oracle | postgresql | redshift)。

    JDBC ソースの接続タイプ。

  • RedshiftTmpDir– UTF-8 文字列、「Custom string pattern #59」に一致。

    JDBC Redshift ソースの一時ディレクトリ。

S3DirectSourceAdditionalOptions 構造

Amazon S3 データストアの追加の接続オプションを指定します。

[フィールド]
  • BoundedSize – 数値 (long)。

    処理されるバイトのデータセットのターゲットサイズの上限を設定します。

  • BoundedFiles – 数値 (long)。

    処理されるファイルのターゲット数の上限を設定します。

  • EnableSamplePath – ブール。

    オプションを設定しサンプルパスを有効にします。

  • SamplePath– UTF-8 文字列、「Custom string pattern #59」に一致。

    有効にした場合は、サンプルパスを指定します。

S3JsonSource 構造

Amazon S3 の JSON データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • Paths – 必須: UTF-8 文字列の配列。

    読み取りのソースとなる Amazon S3 パスのリスト。

  • CompressionType – UTF-8 文字列 (有効な値: gzip="GZIP" | bzip2="BZIP2")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Exclusions – UTF-8 文字列の配列。

    除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。

  • GroupSize– UTF-8 文字列、「Custom string pattern #59」に一致。

    ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、"groupFiles""inPartition" に設定する必要があります。

  • GroupFiles– UTF-8 文字列、「Custom string pattern #59」に一致。

    入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを "none" に設定します。

  • Recurse – ブール。

    true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。

  • MaxBand – 数値 (整数)、None 以下。

    このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。

  • MaxFilesInBand – 数値 (整数)、None 以下。

    このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。

  • AdditionalOptionsS3DirectSourceAdditionalOptions オブジェクト。

    追加の接続オプションを指定します。

  • JsonPath– UTF-8 文字列、「Custom string pattern #59」に一致。

    JSON データを定義する JsonPath 文字列。

  • Multiline – ブール。

    単一のレコードが複数行にまたがることができるかどうかを指定するブール値。これが発生するのは、フィールドに引用符で囲まれた改行文字がある場合などです。複数行にまたがるレコードがある場合は、このオプションを True に設定する必要があります。デフォルト値は False であり、解析時によりアグレッシブなファイル分割を可能にします。

  • OutputSchemasGlueSchema オブジェクトの配列。

    S3 JSON ソース用のデータスキーマを指定します。

S3ParquetSource 構造

Amazon S3 に保存されている Apache Parquet データストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • Paths – 必須: UTF-8 文字列の配列。

    読み取りのソースとなる Amazon S3 パスのリスト。

  • CompressionType – UTF-8 文字列 (有効な値: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Exclusions – UTF-8 文字列の配列。

    除外する Unix スタイルの glob パターンの JSON リストを含む文字列。例えば、"[\"**.pdf\"]" はすべての PDF ファイルを除外します。

  • GroupSize– UTF-8 文字列、「Custom string pattern #59」に一致。

    ターゲットグループのサイズ (バイト単位)。デフォルトは、入力データのサイズとクラスターのサイズに基づいて計算されます。入力ファイルが 50,000 個未満の場合、このオプションを有効にするには、"groupFiles""inPartition" に設定する必要があります。

  • GroupFiles– UTF-8 文字列、「Custom string pattern #59」に一致。

    入力ファイルが 50,000 個を超える場合、デフォルトでファイルのグループ化が有効化されます。入力ファイルが 50,000 個未満の場合にグループ化を有効化するには、このパラメータに『inPartition』を設定します。入力ファイルが 50,000 個を超える場合に、グループ化を無効にするには、このパラメータを "none" に設定します。

  • Recurse – ブール。

    true に設定した場合は、指定したパスの下にあるすべてのサブディレクトリ内のファイルを再帰的に読み取ります。

  • MaxBand – 数値 (整数)、None 以下。

    このオプションでは、s3 リストの一貫性が認められるまでの期間をミリ秒単位で指定します。Amazon S3 の結果整合性を担保するために、直前の maxBand ミリ秒以内の変更タイムスタンプが付いたファイルが、特に JobBookmarks の使用時に追跡されます。ほとんどのユーザーはこのオプションを設定する必要はありません。デフォルトは 900,000 ミリ秒 (15 分) です。

  • MaxFilesInBand – 数値 (整数)、None 以下。

    このオプションは、直前の maxBand 秒間に保存するファイルの最大数を指定します。この数を超えた場合、余分なファイルはスキップされ、次のジョブ実行時にのみ処理されます。

  • AdditionalOptionsS3DirectSourceAdditionalOptions オブジェクト。

    追加の接続オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    S3 Parquet ソース用のデータスキーマを指定します。

S3DeltaSource 構造

Amazon S3 内に保存されている Delta Lake データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Delta Lake ソースの名前。

  • Paths – 必須: UTF-8 文字列の配列。

    読み取りのソースとなる Amazon S3 パスのリスト。

  • AdditionalDeltaOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • AdditionalOptionsS3DirectSourceAdditionalOptions オブジェクト。

    コネクタの追加オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Delta Lake ソース用のデータスキーマを指定します。

S3CatalogDeltaSource 構造

AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。データソースは Amazon S3 に保存する必要があります。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Delta Lake データソースの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • AdditionalDeltaOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Delta Lake ソース用のデータスキーマを指定します。

CatalogDeltaSource 構造

AWS Glue データカタログ内に登録されている Delta Lake データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Delta Lake データソースの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • AdditionalDeltaOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Delta Lake ソース用のデータスキーマを指定します。

S3HudiSource 構造

Amazon S3 内に保存されている Hudi データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Hudi ソースの名前。

  • Paths – 必須: UTF-8 文字列の配列。

    読み取りのソースとなる Amazon S3 パスのリスト。

  • AdditionalHudiOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • AdditionalOptionsS3DirectSourceAdditionalOptions オブジェクト。

    コネクタの追加オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Hudi ソース用のデータスキーマを指定します。

S3CatalogHudiSource 構造

AWS Glue データカタログ内に登録されている Hudi データソースを指定します。Hudi データソースは Amazon S3 に保存する必要があります。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Hudi データソースの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • AdditionalHudiOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Hudi ソース用のデータスキーマを指定します。

CatalogHudiSource 構造

AWS Glue データカタログ内に登録されている Hudi データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Hudi データソースの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取りデータベースのテーブルの名前。

  • AdditionalHudiOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    追加の接続オプションを指定します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    Hudi ソース用のデータスキーマを指定します。

DynamoDBCatalogSource 構造

AWS Glue データカタログ内の DynamoDB データソースを指定します。

[フィールド]

RelationalCatalogSource 構造

AWS Glue データカタログ内の、リレーショナルデータベースデータソースを指定します。

[フィールド]

JDBCConnectorTarget 構造

Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • ConnectionName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    コネクタに関連付けられている接続の名前。

  • ConnectionTable – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    データターゲットのテーブルの名前。

  • ConnectorName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    使用されるコネクタの名前。

  • ConnectionType必須: UTF-8 文字列。Custom string pattern #59 に一致。

    JDBC データターゲットへの接続を指定する marketplace.jdbc や custom.jdbc などの接続のタイプ。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプション。

  • OutputSchemasGlueSchema オブジェクトの配列。

    JDBC ターゲット用のデータスキーマを指定します。

SparkConnectorTerg 構造

Apache Spark コネクタを使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • ConnectionName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    Apache Spark コネクタの接続の名前。

  • ConnectorName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    Apache Spark コネクタの名前。

  • ConnectionType必須: UTF-8 文字列。Custom string pattern #59 に一致。

    marketplace.spark や custom.spark などのApache Spark データストアへの接続を指定する接続のタイプ。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプション。

  • OutputSchemasGlueSchema オブジェクトの配列。

    カスタム Spark ターゲット用のデータスキーマを指定します。

BasicCatalogTerg 構造

AWS Glue データカタログテーブルを使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    特定のキーまたはキーのセットに基づいて、複数のパーティションまたはシャードにデータを分散するために使用されるパーティションキー。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    ターゲットとして使用するテーブルを含むデータベース。このデータベースは、データカタログに既に存在している必要があります。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    出力データのスキーマを定義するテーブル。このテーブルは、 のデータカタログに既に存在している必要があります。

MySQLCatalogTarget 構造

MySQL を使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

PostgreSQLCatalogTarget 構造

Postgres SQL を使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

OracleSQLCatalogTarget 構造

Oracle SQL を使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

MicrosoftSQLServerCatalogTarget 構造

Microsoft SQL を使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

RedShiftTarget 構造

Amazon Redshift を使用するターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

  • RedshiftTmpDir– UTF-8 文字列、「Custom string pattern #59」に一致。

    データベースからコピーするときに一時データをステージングできる Amazon S3 パス。

  • TmpDirIAMRole– UTF-8 文字列、「Custom string pattern #59」に一致。

    アクセス許可を持つ IAM ロール。

  • UpsertRedshiftOptionsUpsertRedshiftTargetOptions オブジェクト。

    Redshift ターゲットに書き込む際の upsert 処理を設定するためのオプションセット。

AmazonRedshiftTarget 構造

Amazon Redshift ターゲットを指定します。

[フィールド]
  • Name– UTF-8 文字列、「Custom string pattern #61」に一致。

    Amazon Redshift ターゲットの名前。

  • DataAmazonRedshiftNodeData オブジェクト。

    Amazon Redshift ターゲットノードのデータを指定します。

  • Inputs – UTF-8 文字列の配列、1 個の文字列。

    データターゲットへの入力であるノード。

UpsertRedshiftTargetOptions 構造

Redshift ターゲットに書き込む際の upsert 処理を設定するオプション。

[フィールド]
  • TableLocation– UTF-8 文字列、「Custom string pattern #59」に一致。

    Redshift テーブルの物理的な場所。

  • ConnectionName– UTF-8 文字列、「Custom string pattern #59」に一致。

    Redshift に書き込むために使用する接続名。

  • UpsertKeys – UTF-8 文字列の配列。

    更新または挿入のどちらを実行するかを決定するためのキー。

S3CatalogTarget 構造

AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • SchemaChangePolicyCatalogSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3GlueParquetTarget 構造

Apache Parquet 列指向ストレージで Amazon S3 に書き込むデータターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Path必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込む単一の Amazon S3 パス。

  • Compression – UTF-8 文字列 (有効な値: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" | none="NONE")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • SchemaChangePolicyDirectSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

CatalogSchemaChangePolicy 構造

クローラの更新の動作を指定するポリシー。

[フィールド]
  • EnableUpdateCatalog – ブール。

    クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。

  • UpdateBehavior – UTF-8 文字列 (有効な値: UPDATE_IN_DATABASE | LOG)。

    クローラーが変更されたスキーマを検出したときの更新動作。

S3directTarget 構造

Amazon S3 に書き込むデータターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Path必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込む単一の Amazon S3 パス。

  • Compression– UTF-8 文字列、「Custom string pattern #59」に一致。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Format必須: UTF-8 文字列 (有効な値: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    ターゲットのデータ出力形式を指定します。

  • SchemaChangePolicyDirectSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3HudiCatalogTarget 構造

AWS Glue データカタログ内の Hudi データソースに書き込むターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • AdditionalOptions必須: キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyCatalogSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3HudiDirectTarget 構造

Amazon S3 内の Hudi データソースに書き込むターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • Path必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込み先の Hudi データソースの Amazon S3 パス。

  • Compression必須: UTF-8 文字列 (有効な値: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" | snappy="SNAPPY")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Format必須: UTF-8 文字列 (有効な値: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    ターゲットのデータ出力形式を指定します。

  • AdditionalOptions必須: キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyDirectSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3DeltaCatalogTarget 構造

AWS Glue データカタログ内の Delta Lake データソースに書き込むターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyCatalogSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

S3DeltaDirectTarget 構造

Amazon S3 内の Delta Lake データソースに書き込むターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Path必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込み先の Delta Lake データソースの Amazon S3 パス。

  • Compression必須: UTF-8 文字列 (有効な値: uncompressed="UNCOMPRESSED" | snappy="SNAPPY")。

    データの圧縮方法を指定します。データに標準のファイル拡張子が付いている場合、このオプションは一般的に不要です。指定できる値は "gzip" および "bzip" です。

  • Format必須: UTF-8 文字列 (有効な値: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA")。

    ターゲットのデータ出力形式を指定します。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    コネクタの追加接続オプションを指定します。

  • SchemaChangePolicyDirectSchemaChangePolicy オブジェクト。

    クローラの更新の動作を指定するポリシー。

DirectSchemaChangePolicy 構造

クローラの更新の動作を指定するポリシー。

[フィールド]
  • EnableUpdateCatalog – ブール。

    クローラが変更されたスキーマを検出したとき、指定の更新動作を使用するかどうか。

  • UpdateBehavior – UTF-8 文字列 (有効な値: UPDATE_IN_DATABASE | LOG)。

    クローラーが変更されたスキーマを検出したときの更新動作。

  • Table– UTF-8 文字列、「Custom string pattern #59」に一致。

    スキーマ変更ポリシーが適用されるデータベース内のテーブルを指定します。

  • Database– UTF-8 文字列、「Custom string pattern #59」に一致。

    スキーマ変更ポリシーを適用するデータベースを指定します。

ApplyMapping 構造

データソースのマップデータプロパティキーを、データターゲットのデータプロパティキーに変換指定します。キーの名前を変更したり、データタイプを変更したり、データセットから削除するキーを選択できます。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Mapping必須: Mapping オブジェクトの配列。

    データソースのデータプロパティキーを、データターゲットのデータプロパティキーにマッピングします。

Mapping 構造

データプロパティキーのマッピングを指定します。

[フィールド]
  • ToKey– UTF-8 文字列、「Custom string pattern #59」に一致。

    マッピングを適用した後に、列名を何にするのかを示します。FromPath と同じでも構いません。

  • FromPath – UTF-8 文字列の配列。

    変更するテーブルまたは列。

  • FromType– UTF-8 文字列、「Custom string pattern #59」に一致。

    修正されるデータのタイプ。

  • ToType– UTF-8 文字列、「Custom string pattern #59」に一致。

    データの修正先のデータタイプ。

  • Dropped – ブール。

    true の場合、列は削除されます。

  • Children – Mapping オブジェクトの配列。

    ネストされたデータ構造にのみ適用されます。親構造を変更し、その子構造を変更する場合は、このデータ構造に記入できます。それはまた Mapping であり、FromPath はこの構造から親の FromPath ブラス FromPath です。

    子部分に、次のような構造があるとします。

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    次のような Mapping を指定します。

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields 構造

保持するデータプロパティキーを選択するトランスフォームを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Paths – 必須: UTF-8 文字列の配列。

    データ構造内の変数への JSON パス。

DropFields 構造

削除するデータプロパティキーを選択する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Paths – 必須: UTF-8 文字列の配列。

    データ構造内の変数への JSON パス。

RenameField 構造

1 つのデータプロパティキーの名前を変更する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • SourcePath – 必須: UTF-8 文字列の配列。

    ソースデータのデータ構造内の変数への JSON パス。

  • TargetPath – 必須: UTF-8 文字列の配列。

    ターゲットデータのデータ構造内の変数への JSON パス。

スピゴット構造

Amazon S3 バケットにデータのサンプルを書き込むための変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Path – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    Amazon S3 パスでは、データセットから Amazon S3 バケットの JSON ファイルにレコードのサブセットが書き出されます。

  • Topk – 数値 (integer)。100 以下。

    データセットの先頭から書き込むレコードの数を指定します。

  • Prob – 数値 (double)。1 以下。

    特定のレコードを選ぶ確率 (最大値が 1 の 10 進値)。値 1 は、データセットから読み込まれた各行をサンプル出力に含めることを示します。

Join 構造

指定したデータプロパティキーの比較フレーズを使用して、2 つのデータセットを 1 つに結合する変換を指定します。結合タイプは、内部結合、外部結合、左結合、右結合、左半結合、左反結合を使用できます。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。2 個の文字列。

    ノード名で識別されるデータ入力。

  • JoinType必須: UTF-8 文字列 (有効な値: equijoin="EQUIJOIN" | left="LEFT" | right="RIGHT" | outer="OUTER" | leftsemi="LEFT_SEMI" | leftanti="LEFT_ANTI")。

    データセットで実行する結合の種類を指定します。

  • Columns必須: JoinColumn オブジェクトの配列。2 個の構造。

    結合する 2 つの列のリスト。

JoinColumn 構造

結合する列を指定します。

[フィールド]
  • From – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    結合する列。

  • Keys – 必須: UTF-8 文字列の配列。

    結合される列のキー。

SplitFields 構造

データプロパティキーを 2 つの DynamicFrames に分割する変換を指定します。出力は DynamicFrames のコレクションです。一方は選択したデータプロパティキー、他方は残っている方のデータプロパティキーを持ちます。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Paths – 必須: UTF-8 文字列の配列。

    データ構造内の変数への JSON パス。

SelectFromCollection 構造

DynamicFrame のコレクションから 1 つの DynamicFrames を選択するトランスフォームを指定します 出力は選択された DynamicFrame です。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Index必須: 数値 (整数)。None 以下。

    選択される DynamicFrame のインデックス。

FillMissingValues 構造

変換を使用して、データセット内に欠落値があるレコードを検索し、補完により決定する値を持つ新しいフィールドを追加します。入力データセットは、欠落値を決定する機械学習モデルのトレーニングに使用されます。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • ImputedPath – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    帰属するデータセットのデータ構造内の変数への JSON パス。

  • FilledPath– UTF-8 文字列、「Custom string pattern #59」に一致。

    データセットのデータ構造内の変数への JSON パスを入力します。

Filter 構造

フィルター条件に基づいて、データセットを 2 つに分割する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • LogicalOperator必須: UTF-8 文字列 (有効な値: AND | OR)。

    キー値を指定値と比較して行をフィルタリングするために使用される演算子。

  • Filters必須: FilterExpression オブジェクトの配列。

    フィルタ式を指定します。

FilterExpression 構造

フィルタ表現を指定します。

[フィールド]
  • Operation必須: UTF-8 文字列 (有効な値: EQ | LT | GT | LTE | GTE | REGEX | ISNULL)。

    表現で実行するオペレーションの種類。

  • Negated – ブール。

    その表現を無効にするかどうか。

  • Values必須: FilterValue オブジェクトの配列。

    フィルタ値のリスト。

FilterValue 構造

FilterExpression の値リストにある単一のエントリを表します。

[フィールド]
  • Type必須: UTF-8 文字列 (有効な値: COLUMNEXTRACTED | CONSTANT)。

    フィルタ値のタイプ。

  • Value – 必須: UTF-8 文字列の配列。

    関連させる値。

CustomCode 構造

データ変換を実行するためにカスタムコードを使用する変換を指定します。結果には、DynamicFrames のコレクションが出力されます。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の以上の文字列。

    ノード名で識別されるデータ入力。

  • Code – 必須: UTF-8 文字列。Custom string pattern #52 に一致。

    データ変換を実行するために使用されるカスタムコード。

  • ClassName – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    カスタムコードノードクラスに定義された名前。

  • OutputSchemasGlueSchema オブジェクトの配列。

    カスタムコード変換用のデータスキーマを指定します。

SparkSQL 構造

データを変換する Spark SQL 構文を使用して、SQL クエリを入力する変換を指定します。出力は、単一の DynamicFrame です。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の以上の文字列。

    ノード名で識別されるデータ入力。SQL クエリで使用する各入力ノードにテーブル名を関連付けることができます。選択す名前は、Spark SQL の規則を満たす必要があります。

  • SqlQuery – 必須: UTF-8 文字列。Custom string pattern #60 に一致。

    Spark SQL 構文を使用し、単一のデータセットを返す SQL クエリ。

  • SqlAliases必須: SqlAlias オブジェクトの配列。

    エイリアスのリスト。エイリアスを使用すると、特定の入力に対して SQL で使用する名前を指定できます。たとえば、「myDataSource」という名前のデータソースがあるとします。From を MyDataSourceとして、Alias を sqlNameとして指定する場合、SQLで次のことができます。

    select * from SqlName

    これにより、MyDataSource からデータを取得します。

  • OutputSchemasGlueSchema オブジェクトの配列。

    SparkSQL 変換用のデータスキーマを指定します。

SqlAlias 構造

SqlAliases の値リストにある単一のエントリを表します。

[フィールド]
  • From – 必須: UTF-8 文字列。Custom string pattern #58 に一致。

    テーブルまたはテーブル内の列。

  • Alias必須: UTF-8 文字列。Custom string pattern #59 に一致。

    テーブルまたはテーブル内の列に与えられた一時的な名前。

DropNullFields 構造

列のすべての値が 'null' である場合に、データセットから列を削除する変換を指定します。デフォルトでは、AWS Glue Studio は null オブジェクトを認識しますが、空の文字列、『null』が 1 の整数、または 0 などのプレースホルダなどの文字列では、自動的に『null』として認識されません。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • NullCheckBoxListNullCheckboxList オブジェクト。

    特定の値が削除のために Null 値として認識されるかどうかを表す構造。

  • NullTextListNullValueField オブジェクトの配列。構造 50 個以下。

    データセットに特有のNullプレースホルダとして使用される 0 や他の値などはカスタムの NULL 値を表す NullValueField 構造のリストを指定する構造。

    Null プレースホルダの値とデータタイプの両方がデータと一致する場合にのみ、DropNullFields 変換でカスタム NULL 値を削除します。

NullCheckboxList 構造

特定の値が削除の Null 値として認識されるかどうかを表します。

[フィールド]
  • IsEmpty – ブール。

    空の文字列を Null 値と見なすことを指定します。

  • IsNullString – ブール。

    「null」の単語を綴る値をnull値と見なすことを指定します。

  • IsNegOne – ブール。

    -1 の整数値が Null 値と見なすことを指定します。

NullValueField 構造

データセットに固有の null プレースホルダとして使用される 0 や他の値などのカスタムの null 値を表します。

[フィールド]
  • Value – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    null プレースホルダの値。

  • Datatype必須: Datatype オブジェクト。

    値のデータタイプ。

Datatype 構造

値のデータタイプを表す構造。

[フィールド]

Merge 構造

レコードを識別するために、DynamicFrame プライマリキーに基づく DynamicFrame ステージングに結合変換を指定します。重複レコード(同じプライマリキーを持つレコード)は重複除外されません。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。2 個の文字列。

    ノード名で識別されるデータ入力。

  • Source – 必須: UTF-8 文字列。Custom string pattern #58 に一致。

    DynamicFrame ステージングと結合する DynamicFrame ソース。

  • PrimaryKeys – 必須: UTF-8 文字列の配列。

    ソースおよびステージング動的フレームからのレコードを照合するプライマリキーフィールドのリスト。

Union 構造

2 つ以上のデータセットの行を 1 つの結果に結合する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。2 個の文字列。

    変換用のノード ID 入力。

  • UnionType必須: UTF-8 文字列 (有効な値: ALL | DISTINCT)。

    Union 変換のタイプを示します。

    データソースの全行を結果として生じる DynamicFrame に結合するため ALL を指定します。結果として生じるユニオンでは、重複する行は削除されません。

    結果として生じる DynamicFrame 内の重複した行を削除するため DISTINCT を指定します。

PIIDetection 構造

PII データを識別、削除、またはマスクする変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    変換用のノード ID 入力。

  • PiiType必須: UTF-8 文字列 (有効な値: RowAudit | RowMasking | ColumnAudit | ColumnMasking)。

    PIIDetection 変換のタイプを示します。

  • EntityTypesToDetect – 必須: UTF-8 文字列の配列。

    PIIDetection 変換が PII データとして識別するエンティティのタイプを示します。

    PII タイプのエンティティには以下が含まれます。PERSON_NAME、DATE、USA_SNN、EMAIL、USA_ITIN、USA_PASSPORT_NUMBER、PHONE_NUMBER、BANK_ACCOUNT、IP_ADDRESS、MAC_ADDRESS、USA_CPT_CODE、USA_HCPCS_CODE、USA_NATIONAL_DRUG_CODE、USA_MEDICARE_BENEFICIARY_IDENTIFIER、USA_HEALTH_INSURANCE_CLAIM_NUMBER、CREDIT_CARD、USA_NATIONAL_PROVIDER_IDENTIFIER、USA_DEA_NUMBER、USA_DRIVING_LICENSE

  • OutputColumnName– UTF-8 文字列、「Custom string pattern #59」に一致。

    その行で検出されたエンティティタイプを含む、すべての出力列名を示します。

  • SampleFraction – 数値 (double)。1 以下。

    PII エンティティのスキャン時にサンプリングするデータの割合を示します。

  • ThresholdFraction – 数値 (double)。1 以下。

    PII データとして識別されるために、列内で適合する必要があるデータの割合を示します。

  • MaskValue - UTF-8 文字列、256 バイト長以下、Custom string pattern #56 に一致。

    検出されたエンティティを置き換える値を示します。

Aggregate 構造

選択したフィールドによって行をグループ化し、指定された関数を使用して集計値を計算する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    集約変換の入力として使用するフィールドと行を指定します。

  • Groups – 必須: UTF-8 文字列の配列。

    グループ化に使用するフィールドを指定します。

  • Aggs必須: AggregateOperation オブジェクトの配列、1~30 個の構造。

    指定したフィールドで実行する集計関数を指定します。

DropDuplicates 構造

繰り返しデータの行をデータセットから削除する変換を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    変換ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    ノード名で識別されるデータ入力。

  • Columns – UTF-8 文字列の配列。

    繰り返しがある場合に、それをマージまたは削除する列の名前。

GovernedCatalogTarget 構造

AWS Glue データカタログを使用して Amazon S3 に書き込むデータターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データターゲットの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データターゲットへの入力であるノード。

  • PartitionKeys – UTF-8 文字列の配列。

    一連のキーを使用してネイティブパーティショニングを指定します。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベーステーブルの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    書き込むデータベースの名前。

  • SchemaChangePolicyCatalogSchemaChangePolicy オブジェクト。

    管理されたカタログを更新する際の動作を指定するポリシー。

GovernedCatalogSource 構造

管理された AWS Glue データカタログ内のデータストアを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データストアの名前。

  • Database必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み込むデータベース。

  • Table必須: UTF-8 文字列。Custom string pattern #59 に一致。

    読み取り元のデータベーステーブル。

  • PartitionPredicate– UTF-8 文字列、「Custom string pattern #59」に一致。

    この述語を満たすパーティションは削除されます。これらのパーティションの保存期間内のファイルは削除されません。"" を設定 – デフォルトでは空です。

  • AdditionalOptionsS3SourceAdditionalOptions オブジェクト。

    追加の接続オプションを指定します。

AggregateOperation 構造

集約変換で集約を実行するために必要なパラメータのセットを指定します。

[フィールド]
  • Column – 必須: UTF-8 文字列の配列。

    集計関数を適用するデータセットの列を指定します。

  • AggFunc必須: UTF-8 文字列 (有効な値: avg | countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp | var_pop)。

    適用する集計関数を指定します。

    使用可能な集計関数には、avg countDistinct、count、first、last、kurtosis、max、min、skewness、stddev_samp、stddev_pop、sum、sumDistinct、var_samp、var_pop などがあります。

GlueSchema 構造

AWS Glue でスキーマを決定できない場合に、ユーザー定義のスキーマを指定します。

[フィールド]
  • ColumnsGlueStudioSchemaColumn オブジェクトの配列。

    AWS Glue スキーマを作成する列の定義を指定します。

GlueStudioSchemaColumn 構造

AWS Glue スキーマ定義内の列を 1 つ指定します。

[フィールド]
  • Name必須: バイト長が 1024 以下で Single-line string pattern に適合する、UTF-8 文字列。

    AWS Glue Studio スキーマ内にある列の名前。

  • Type - UTF-8 文字列。131,072 バイト長以下。Single-line string pattern に一致。

    AWS Glue Studio スキーマ内にあるこの列のハイブタイプ。

GlueStudioColumn 構造

AWS Glue Studio 内の列を 1 つ指定します。

[フィールド]
  • Key – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    AWS Glue Studio 内の列のキー。

  • FullPath – 必須: UTF-8 文字列の配列。

    AWS Glue Studio 内の列の完全な URL。

  • Type必須: UTF-8 文字列 (有効な値: array="ARRAY" | bigint="BIGINT" | bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT" | smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" | unknown array="UNKNOWN_ARRAY")。

    AWS Glue Studio 内の列のタイプ。

  • Children – 構造の配列。

    AWS Glue Studio 内の親列の子。

DynamicTransform 構造

動的変換を実行するために必要なパラメータのセットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    動的変換の名前を指定します。

  • TransformName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    AWS Glue Studio ビジュアルエディタに表示される動的変換の名前を指定します。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    必要な動的変換の入力を指定します。

  • ParametersTransformConfigParameter オブジェクトの配列。

    動的変換のパラメータを指定します。

  • FunctionName必須: UTF-8 文字列。Custom string pattern #59 に一致。

    動的変換の関数の名前を指定します。

  • Path必須: UTF-8 文字列。Custom string pattern #59 に一致。

    動的変換ソースファイルおよび設定ファイルのパスを指定します。

  • Version– UTF-8 文字列、「Custom string pattern #59」に一致。

    このフィールドは使用されず、将来のリリースで非推奨となります。

  • OutputSchemasGlueSchema オブジェクトの配列。

    動的変換用のデータスキーマを指定します。

TransformConfigParameter 構造

動的変換の設定ファイル内のパラメータを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    動的変換の設定ファイル内のパラメータの名前を指定します。

  • Type必須: UTF-8 文字列 (有効な値: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL")。

    動的変換の設定ファイル内のパラメータタイプを指定します。

  • ValidationRule– UTF-8 文字列、「Custom string pattern #59」に一致。

    動的変換の設定ファイル内の検証ルールを指定します。

  • ValidationMessage– UTF-8 文字列、「Custom string pattern #59」に一致。

    動的変換の設定ファイル内の検証メッセージを指定します。

  • Value – UTF-8 文字列の配列。

    動的変換の設定ファイル内のパラメータの値を指定します。

  • ListType – UTF-8 文字列 (有効な値: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | null="NULL")。

    動的変換の設定ファイル内のパラメータのリスト型を指定します。

  • IsOptional – ブール。

    動的変換の設定ファイル内のパラメータがオプションかどうかを指定します。

EvaluateDataQuality 構造

データ品質評価基準を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データ品質評価の名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    データ品質評価の入力。

  • Ruleset必須: UTF-8 文字列、1~65536 バイト長、Custom string pattern #57 に一致。

    データ品質評価のルールセット。

  • Output – UTF-8 文字列 (有効な値: PrimaryInput | EvaluationResults)。

    データ品質評価の出力。

  • PublishingOptionsDQResultsPublishingOptions オブジェクト。

    結果の発行方法を設定するオプション。

  • StopJobOnFailureOptionsDQStopJobOnFailureOptions オブジェクト。

    データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。

DQResultsPublishingOptions 構造

データ品質評価の結果の発行方法を設定するオプション。

[フィールド]
  • EvaluationContext– UTF-8 文字列、「Custom string pattern #58」に一致。

    評価のコンテキスト。

  • ResultsS3Prefix– UTF-8 文字列、「Custom string pattern #59」に一致。

    結果に追加された Amazon S3 プレフィックス。

  • CloudWatchMetricsEnabled – ブール。

    データ品質結果のメトリクスを有効にします。

  • ResultsPublishingEnabled – ブール。

    データ品質結果の発行を有効にします。

DQStopJobOnFailureOptions 構造

データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。

[フィールド]
  • StopJobOnFailureTiming – UTF-8 文字列 (有効な値: Immediate | AfterDataLoad)。

    データ品質評価が失敗した場合にジョブを停止するタイミング。オプションは Immediate または AfterDataLoad です。

EvaluateDataQualityMultiFrame 構造

データ品質評価基準を指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    データ品質評価の名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の以上の文字列。

    データ品質評価の入力。このリストにおける最初の入力はプライマリデータソースです。

  • AdditionalDataSources – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #61 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    プライマリを除くすべてのデータソースのエイリアス。

  • Ruleset必須: UTF-8 文字列、1~65536 バイト長、Custom string pattern #57 に一致。

    データ品質評価のルールセット。

  • PublishingOptionsDQResultsPublishingOptions オブジェクト。

    結果の発行方法を設定するオプション。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列 (有効な値: performanceTuning.caching="CacheOption" | observations.scope="ObservationsOption")。

    各値は UTF-8 文字列。

    変換のランタイム動作を設定するオプション。

  • StopJobOnFailureOptionsDQStopJobOnFailureOptions オブジェクト。

    データ品質評価に失敗した場合にジョブを停止する方法を設定するオプション。

Recipe 構造

AWS Glue ジョブで AWS Glue DataBrew レシピを使用する AWS Glue Studio ノード。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    AWS Glue Studio ノードの名前。

  • Inputs必須: UTF-8 文字列の配列。1 個の文字列。

    レシピノードへの入力となるノード。これは ID によって識別されます。

  • RecipeReferenceRecipeReference オブジェクト。

    ノードが使用する DataBrew レシピへの参照。

  • RecipeStepsRecipeStep オブジェクトの配列。

    レシピノードで使用される変換ステップ。

RecipeReference 構造

AWS Glue DataBrew レシピへの参照。

[フィールド]
  • RecipeArn – 必須: UTF-8 文字列。Custom string pattern #59 に一致。

    DataBrew レシピの ARN。

  • RecipeVersion必須: UTF-8 文字列、1~16 バイト長。

    DataBrew レシピの RecipeVersion。

SnowflakeNodeData 構造

AWS Glue Studio で Snowflake ノードの設定を指定します。

[フィールド]
  • SourceType– UTF-8 文字列、「Custom string pattern #58」に一致。

    取得したデータの指定方法を指定します。有効な値: "table" "query"

  • Connectionオプション オブジェクト。

    Snowflake エンドポイントへの AWS Glue データカタログ接続を指定します。

  • Schema – UTF-8 文字列。

    ノードが使用する Snowflake データベーススキーマを指定します。

  • Table – UTF-8 文字列。

    ノードが使用する Snowflake テーブルを指定します。

  • Database – UTF-8 文字列。

    ノードが使用する Snowflake データベースを指定します。

  • TempDir– UTF-8 文字列、「Custom string pattern #59」に一致。

    現在使用されていません。

  • IamRoleオプション オブジェクト。

    現在使用されていません。

  • AdditionalOptions – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #59 に適合する UTF-8 文字列です。

    各値は、Custom string pattern #59 に適合する UTF-8 文字列です。

    Snowflake コネクタに渡される追加オプションを指定します。ノードの他の場所でオプションが指定されている場合、こちらが優先されます。

  • SampleQuery – UTF-8 文字列。

    query SourceType でデータを取得するために使用する SQL 文字列。

  • PreAction – UTF-8 文字列。

    Snowflake コネクタが標準アクションを実行する前に実行される SQL 文字列。

  • PostAction – UTF-8 文字列。

    Snowflake コネクタが標準アクションを実行した後に実行される SQL 文字列。

  • Action – UTF-8 文字列。

    既存のデータを持つテーブルに書き込むときに実行するアクションを指定します。有効な値は、 appendmergetruncatedrop です。

  • Upsert – ブール。

    アクションが append の場合に使用します。行が既に存在する場合の解決動作を指定します。true の場合、既存の行が更新されます。false の場合、それらの行が挿入されます。

  • MergeAction– UTF-8 文字列、「Custom string pattern #58」に一致。

    マージアクションを指定します。有効な値: simplecustom。simple の場合、マージ動作は MergeWhenMatched MergeWhenNotMatched によって定義されます。custom の場合、MergeClause によって定義されます。

  • MergeWhenMatched– UTF-8 文字列、「Custom string pattern #58」に一致。

    マージ時に既存のデータと一致するレコードを解決する方法を指定します。有効な値: updatedelete

  • MergeWhenNotMatched– UTF-8 文字列、「Custom string pattern #58」に一致。

    マージ時に既存のデータと一致しないレコードを処理する方法を指定します。有効な値: insertnone

  • MergeClause – UTF-8 文字列。

    カスタムマージ動作を指定する SQL ステートメント。

  • StagingTable – UTF-8 文字列。

    merge または upsert を行う append アクションを実行するときに使用されるステージングテーブルの名前。データはこのテーブルに書き込まれ、生成されたポストアクションによって table に移動されます。

  • SelectedColumnsオプション オブジェクトの配列。

    マージや upsert の一致を検出するときに、レコードを識別するために組み合わせる列を指定します。valuelabel description キーを使用する構造のリストです。各構造は列を記述します。

  • AutoPushdown – ブール。

    自動クエリプッシュダウンを有効にするかどうかを指定します。プッシュダウンが有効になっている場合、Spark でクエリを実行すると、クエリの一部が Snowflake サーバーに「プッシュダウン」できる場合にクエリがプッシュダウンされます。これにより、一部のクエリのパフォーマンスが向上します。

  • TableSchemaオプション オブジェクトの配列。

    ノードのターゲットスキーマを手動で定義します。valuelabeldescription キーを使用する構造のリストです。各構造は列を定義します。

SnowflakeSource 構造

Snowflake データソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Snowflake データソースの名前。

  • Data必須: SnowflakeNodeData オブジェクト。

    Snowflake データソースの設定。

  • OutputSchemasGlueSchema オブジェクトの配列。

    出力データのユーザー定義スキーマを指定します。

SnowflakeTarget 構造

Snowflake ターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    Snowflake ターゲットの名前。

  • Data必須: SnowflakeNodeData オブジェクト。

    Snowflake ターゲットノードのデータを指定します。

  • Inputs – UTF-8 文字列の配列、1 個の文字列。

    データターゲットへの入力であるノード。

ConnectorDataSource の構造

標準の接続オプションを使用して生成されたソースを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    このソースノードの名前。

  • ConnectionType必須: UTF-8 文字列。Custom string pattern #59 に一致。

    基盤となる AWS Glue ライブラリに提供される connectionType。ノードタイプアは、次の接続タイプをサポートします。

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data必須: キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    ノードの接続オプションを指定するマップ。AWS Glue ドキュメントの「接続パラメータ」セクションで、対応する接続タイプ用の標準接続オプションを確認できます。

  • OutputSchemasGlueSchema オブジェクトの配列。

    このソース用のデータスキーマを指定します。

ConnectorDataTarget の構造

標準の接続オプションを使用して生成されたターゲットを指定します。

[フィールド]
  • Name – 必須: UTF-8 文字列。Custom string pattern #61 に一致。

    このターゲットノードの名前。

  • ConnectionType必須: UTF-8 文字列。Custom string pattern #59 に一致。

    基盤となる AWS Glue ライブラリに提供される connectionType。ノードタイプアは、次の接続タイプをサポートします。

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data必須: キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    ノードの接続オプションを指定するマップ。AWS Glue ドキュメントの「接続パラメータ」セクションで、対応する接続タイプ用の標準接続オプションを確認できます。

  • Inputs – UTF-8 文字列の配列、1 個の文字列。

    データターゲットへの入力であるノード。

RecipeStep 構造

AWS Glue Studio データ準備レシピノードで使用されるレシピステップ。

[フィールド]
  • Action必須: RecipeAction オブジェクト。

    レシピステップの変換アクション。

  • ConditionExpressionsConditionExpression オブジェクトの配列。

    レシピステップの条件式。

RecipeAction 構造

AWS Glue Studio データ準備レシピノードで定義されるアクション。

[フィールド]
  • Operation必須: UTF-8 文字列、1~128 バイト長、「Custom string pattern #54」に一致。

    レシピアクションのオペレーション。

  • Parameters – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列、1~128 バイト長で、Custom string pattern #55 に一致します。

    各値は UTF-8 文字列で、1~32768 バイト長です。

    レシピアクションのパラメータ。

ConditionExpression 構造

AWS Glue Studio データ準備レシピノードで定義される条件式。

[フィールド]
  • Condition必須: UTF-8 文字列、1~128 バイト長、「Custom string pattern #54」に一致。

    条件式の条件。

  • Value – UTF-8 文字列、1024 バイト長以下。

    条件式の値。

  • TargetColumn必須: UTF-8 文字列、1~1024 バイト長。

    条件式のターゲット列。