Lavoro visivo API - AWS Glue
 —  tipi di dati  —CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSourceSparkConnectorSourceCatalogSourceySQLCatalogFonte MP ostgreSQLCatalog FonteO racleSQLCatalog FonteM icrosoftSQLServer CatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpzioneS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceD irectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceD ynamoDBCatalog FonteRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetySQLCatalogObiettivo MP ostgreSQLCatalog ObiettivoO racleSQLCatalog ObiettivoM icrosoftSQLServer CatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMappingSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltroFilterExpressionFilterValueCustomCodeSpark SQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldDataTypeUnioneUnionPIIDetectionAggregazioneDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameRecipeRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Lavoro visivo API

Il job Visual API consente di creare processi di integrazione dei dati utilizzando l'JSONoggetto AWS Glue API from a che rappresenta una configurazione visiva di un AWS Glue lavoro.

Un elenco CodeGenConfigurationNodes viene fornito a un processo di creazione o aggiornamento API per registrare un lavoro DAG in AWS Glue Studio per il lavoro creato e generare il codice associato.

Tipi di dati

CodeGenConfigurationNode struttura

CodeGenConfigurationNode enumera tutti i tipi di nodo validi. È possibile compilare una e solo una delle variabili membro.

Campi
  • AthenaConnectorSource: un oggetto AthenaConnectorSource.

    Specifica un connettore per un'origine dati Amazon Athena.

  • JDBCConnectorSource: un oggetto JDBCConnectorSource.

    Speciifica un connettore a una fonte di JDBC dati.

  • SparkConnectorSource: un oggetto SparkConnectorSource.

    Specifica un connettore per un'origine dati Apache Spark.

  • CatalogSource: un oggetto CatalogSource.

    Specifica un data store nel AWS Glue Data Catalog.

  • RedshiftSource: un oggetto RedshiftSource.

    Specifica un archivio dati Amazon Redshift.

  • S3CatalogSource: un oggetto S3 CatalogSource.

    Speciifica un data store Amazon S3 nel Data Catalog AWS Glue .

  • S3CsvSource: un oggetto S3 CsvSource.

    Speciifica un data store con valore separato da comando (CSV) archiviato in Amazon S3.

  • S3JsonSource: un oggetto S3 JsonSource.

    Speciifica un archivio JSON dati archiviato in Amazon S3.

  • S3ParquetSource: un oggetto S3 ParquetSource.

    Specifica un archivio dati di Apache Parquet archiviato in Amazon S3.

  • RelationalCatalogSource: un oggetto RelationalCatalogSource.

    Speciifica un data store di catalogo relazionale nel Data Catalog. AWS Glue

  • DynamoDBCatalogSource: un oggetto D ynamoDBCatalog Fonte.

    Specifica un data store Dynamo DBC Catalog nel Data Catalog. AWS Glue

  • JDBCConnectorTarget: un oggetto JDBCConnectorTarget.

    Specifica una destinazioni di dati che scrive su Amazon S3 nell'archiviazione colonnare di Apache Parquet.

  • SparkConnectorTarget: un oggetto SparkConnectorTarget.

    Specifica una destinazione che utilizza un connettore Apache Spark.

  • CatalogTarget: un oggetto BasicCatalogTarget.

    Specifica una destinazione che utilizza una AWS Glue tabella Data Catalog.

  • RedshiftTarget: un oggetto RedshiftTarget.

    Specifica una destinazione che utilizza Amazon Redshift.

  • S3CatalogTarget: un oggetto S3 CatalogTarget.

    Speciifica un target di dati che scrive su Amazon S3 utilizzando AWS Glue il Data Catalog.

  • S3GlueParquetTarget: un oggetto S3 GlueParquetTarget.

    Specifica una destinazioni di dati che scrive su Amazon S3 nell'archiviazione colonnare di Apache Parquet.

  • S3DirectTarget: un oggetto S3 DirectTarget.

    Specifica una destinazione di dati che scrive su Amazon S3.

  • ApplyMapping: un oggetto ApplyMapping.

    Specifica una trasformazione che mappa le chiavi delle proprietà dei dati nell'origine dei dati alle chiavi delle proprietà dei dati nella destinazione. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.

  • SelectFields: un oggetto SelectFields.

    Specifica una trasformazione che sceglie le chiavi della proprietà dati che si desidera conservare.

  • DropFields: un oggetto DropFields.

    Specifica una trasformazione che sceglie le chiavi della proprietà dati che si desidera eliminare.

  • RenameField: un oggetto RenameField.

    Specifica una trasformazione che rinominerà una singola chiave di proprietà dati.

  • Spigot: un oggetto Spigot.

    Specifica una trasformazione che scrive campioni dei dati in un bucket Amazon S3.

  • Join: un oggetto Join.

    Specifica una trasformazione che unisce due set di dati in un unico set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.

  • SplitFields: un oggetto SplitFields.

    Specifica una trasformazione che divide le chiavi della proprietà dati in due DynamicFrames. L'output è una raccolta di DynamicFrames: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti.

  • SelectFromCollection: un oggetto SelectFromCollection.

    Specifica una trasformazione che sceglie un DynamicFrame da una raccolta di DynamicFrames. L'output è il DynamicFrame selezionato

  • FillMissingValues: un oggetto FillMissingValues.

    Specifica una trasformazione che individua i registri nel set di dati che hanno valori mancanti e aggiunge un nuovo campo con un valore determinato dall'imputazione. Il set di dati di input viene utilizzato per addestrare il modello di machine learning che determina quale dovrebbe essere il valore mancante.

  • Filter: un oggetto Filtro.

    Specifica una trasformazione che divide un set di dati in due, in base a una condizione di filtro.

  • CustomCode: un oggetto CustomCode.

    Specifica una trasformazione che utilizza il codice personalizzato fornito per eseguire la trasformazione dei dati. L'output è una raccolta di. DynamicFrames

  • SparkSQL: un oggetto Spark SQL.

    Specifica una trasformazione in cui si inserisce una SQL query utilizzando la SQL sintassi Spark per trasformare i dati. L'output è un singolo DynamicFrame.

  • DirectKinesisSource: un oggetto DirectKinesisSource.

    Specifica un'origine dati Amazon Kinesis diretta.

  • DirectKafkaSource: un oggetto DirectKafkaSource.

    Specifica un archivio dati Apache Kafka.

  • CatalogKinesisSource: un oggetto CatalogKinesisSource.

    Specifica un'origine dati Kinesis nel Data Catalog AWS Glue .

  • CatalogKafkaSource: un oggetto CatalogKafkaSource.

    Specifica un archivio dati Apache Kafka nel catalogo dati.

  • DropNullFields: un oggetto DropNullFields.

    Specifica una trasformazione che rimuove le colonne dal set di dati se tutti i valori nella colonna sono “null”. Per impostazione predefinita, AWS Glue Studio riconosce gli oggetti nulli, ma alcuni valori come stringhe vuote, stringhe «nulle», numeri interi -1 o altri segnaposto come gli zeri, non vengono riconosciuti automaticamente come nulli.

  • Merge: un oggetto Unione.

    Specifica una trasformazione che unisce DynamicFrame a con un DynamicFrame di staging basato sulle chiavi primarie specificate per identificare i registri. I registri duplicati (registri con le stesse chiavi primarie) non vengono deduplicati.

  • Union: un oggetto Union.

    Specifica una trasformazione che combina le righe di due o più set di dati in un unico risultato.

  • PIIDetection: un oggetto PIIDetection.

    Specifica una trasformazione che identifica, rimuove o maschera i dati. PII

  • Aggregate: un oggetto Aggregazione.

    Specifica una trasformazione che raggruppa le righe in base ai campi scelti e calcola il valore aggregato in base alla funzione specificata.

  • DropDuplicates: un oggetto DropDuplicates.

    Specifica una trasformazione che rimuove le righe di dati ripetuti da un set di dati.

  • GovernedCatalogTarget: un oggetto GovernedCatalogTarget.

    Specifica una destinazione di dati che scrive su un catalogo governato.

  • GovernedCatalogSource: un oggetto GovernedCatalogSource.

    Specifica un'origine dei dati in un catalogo dati governato.

  • MicrosoftSQLServerCatalogSource: un oggetto M icrosoftSQLServer CatalogSource.

    Specifica un'origine dati per SQL server Microsoft nel AWS Glue Data Catalog.

  • MySQLCatalogSource: un oggetto ySQLCatalogFonte M.

    Specifica una fonte di SQL dati personale nel AWS Glue Data Catalog.

  • OracleSQLCatalogSource: un oggetto O racleSQLCatalog Fonte.

    Speciifica un'origine dati Oracle nel AWS Glue Data Catalog.

  • PostgreSQLCatalogSource: un oggetto P ostgreSQLCatalog Fonte.

    Specifica un'origine SQL dati Postgres nel Data Catalog. AWS Glue

  • MicrosoftSQLServerCatalogTarget: un oggetto M icrosoftSQLServer CatalogTarget.

    Speciifica una destinazione che utilizza MicrosoftSQL.

  • MySQLCatalogTarget: un oggetto ySQLCatalogObiettivo M.

    Specifica una destinazione che utilizza My. SQL

  • OracleSQLCatalogTarget: un oggetto O racleSQLCatalog Obiettivo.

    Specifica una destinazione che utilizza Oracle. SQL

  • PostgreSQLCatalogTarget: un oggetto P ostgreSQLCatalog Obiettivo.

    Specifica una destinazione che utilizza Postgres. SQL

  • DynamicTransform: un oggetto DynamicTransform.

    Specifica una trasformazione visiva personalizzata creata da un utente.

  • EvaluateDataQuality: un oggetto EvaluateDataQuality.

    Specifica i criteri di valutazione della qualità dei dati.

  • S3CatalogHudiSource: un oggetto S3 CatalogHudiSource.

    Specifica un'origine dati Hudi registrata nel Data Catalog. AWS Glue L'origine dati deve essere archiviata in. Amazon S3

  • CatalogHudiSource: un oggetto CatalogHudiSource.

    Specifica una fonte di dati Hudi registrata nel AWS Glue Data Catalog.

  • S3HudiSource: un oggetto S3 HudiSource.

    Specifica una fonte di dati Hudi memorizzata in. Amazon S3

  • S3HudiCatalogTarget: un oggetto S3 HudiCatalogTarget.

    Specifica una destinazione che scrive su un'origine dati Hudi nel Data Catalog. AWS Glue

  • S3HudiDirectTarget: un oggetto S3 HudiDirectTarget.

    Specifica una destinazione che scrive su una fonte di dati Hudi in. Amazon S3

  • S3CatalogDeltaSource: un oggetto S3 CatalogDeltaSource.

    Specifica un'origine dati Delta Lake registrata nel Data Catalog. AWS Glue L'origine dati deve essere archiviata in Amazon S3.

  • CatalogDeltaSource: un oggetto CatalogDeltaSource.

    Specifica un'origine dati Delta Lake registrata nel AWS Glue Data Catalog.

  • S3DeltaSource: un oggetto S3 DeltaSource.

    Specifica un'origine dati Delta Lake memorizzata in. Amazon S3

  • S3DeltaCatalogTarget: un oggetto S3 DeltaCatalogTarget.

    Speciifica una destinazione che scrive su un'origine dati Delta Lake nel AWS Glue Data Catalog.

  • S3DeltaDirectTarget: un oggetto S3 DeltaDirectTarget.

    Specifica una destinazione che esegue la scrittura su un'origine dati Delta Lake in. Amazon S3

  • AmazonRedshiftSource: un oggetto AmazonRedshiftSource.

    Specifica una destinazione che scrive su un'origine dati in Amazon Redshift.

  • AmazonRedshiftTarget: un oggetto AmazonRedshiftTarget.

    Specifica una destinazione che scrive su una destinazione dati in Amazon Redshift.

  • EvaluateDataQualityMultiFrame: un oggetto EvaluateDataQualityMultiFrame.

    Specifica i criteri di valutazione della qualità dei dati. Consente più dati di input e restituisce una raccolta di frame dinamici.

  • Recipe: un oggetto Recipe.

    Specifica un nodo di AWS Glue DataBrew ricetta.

  • SnowflakeSource: un oggetto SnowflakeSource.

    Specifica un'origine dati Snowflake.

  • SnowflakeTarget: un oggetto SnowflakeTarget.

    Specifica una destinazione che scrive su un'origine dati Snowflake.

  • ConnectorDataSource: un oggetto ConnectorDataSource.

    Specifica un'origine generata con opzioni di connessione standard.

  • ConnectorDataTarget: un oggetto ConnectorDataTarget.

    Specifica un a destinazione generata con opzioni di connessione standard.

JDBCConnectorOptionsstruttura

Opzioni di connessione aggiuntive per il connettore.

Campi
  • FilterPredicate— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Clausola condizione extra per filtrare i dati dall'origine. Ad esempio:

    BillingCity='Mountain View'

    Quando si utilizza una query anziché un nome di tabella, è necessario verificare che la query funzioni con il filterPredicate specificato.

  • PartitionColumn— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il nome di una colonna intera utilizzata per il partizionamento. Questa opzione funziona solo quando è inclusa con lowerBound, upperBound e numPartitions. Questa opzione funziona allo stesso modo del SQL JDBC lettore Spark.

  • LowerBound: numero (long), non superiore a Nessuno.

    Il valore minimo di partitionColumn che viene utilizzato per decidere lo stride della partizione.

  • UpperBound: numero (long), non superiore a Nessuno.

    Il valore massimo di partitionColumn che viene utilizzato per decidere lo stride della partizione.

  • NumPartitions: numero (long), non superiore a Nessuno.

    Il numero di partizioni. Questo valore, insieme a lowerBound (incluso) e upperBound (escluso), forma stride di partizione per espressioni con le clausole WHERE generate che vengono utilizzate per dividere la partitionColumn.

  • JobBookmarkKeys— Un array di UTF -8 stringhe.

    Il nome delle chiavi dei segnalibri di processo su cui eseguire l'ordinamento.

  • JobBookmarkKeysSortOrder— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Specifica il criterio di ordinamento crescente o decrescente.

  • DataTypeMapping: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8 (valori validi: ARRAY BIGINT BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE| TINYINT | VARBINARY |VARCHAR).

    Ogni valore è una stringa di UTF -8 (valori validi: DATE STRING | TIMESTAMP | INT | FLOAT | LONG | | BIGDECIMAL | BYTE | SHORT |DOUBLE).

    Mappatura personalizzata dei tipi di dati che crea una mappatura da un tipo di JDBC dati a un AWS Glue tipo di dati. Ad esempio, l'opzione "dataTypeMapping":{"FLOAT":"STRING"} mappa i campi di dati di JDBC String tipo FLOAT Java chiamando il ResultSet.getString() metodo del driver e lo utilizza per creare il record. AWS Glue L'oggetto ResultSet viene implementato da ciascun driver, quindi il comportamento è specifico del driver utilizzato. Consultate la documentazione del vostro JDBC driver per capire come il driver esegue le conversioni.

StreamingDataPreviewOptions struttura

Specifica le opzioni relative all'anteprima dei dati per la visualizzazione di un campione dei dati.

Campi
  • PollingTime: numero (lungo), almeno 10.

    Il tempo di polling in millisecondi.

  • RecordPollingLimit: numero (lungo), almeno 1.

    Il limite al numero di registri per cui è stato fatto il polling.

AthenaConnectorSource struttura

Specifica un connettore per un'origine dati Amazon Athena.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome dell'origine dati.

  • ConnectionNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della connessione associata al connettore.

  • ConnectorNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome di un connettore che consente di accedere all'archivio dati in AWS Glue Studio.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #43

    Il tipo di connessione, come marketplace.athena o custom.athena, che designa una connessione a un archivio dati Amazon Athena.

  • ConnectionTable— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nell'origine dati.

  • SchemaNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del gruppo di log CloudWatch da cui leggere. Ad esempio /aws-glue/jobs/output.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Athena personalizzata.

JDBCConnectorSourcestruttura

Speciifica un connettore a una fonte di JDBC dati.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome dell'origine dati.

  • ConnectionNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della connessione associata al connettore.

  • ConnectorNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome di un connettore che consente di accedere all'archivio dati in AWS Glue Studio.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #43

    Il tipo di connessione, ad esempio marketplace.jdbc o custom.jdbc, che designa una connessione a un data store. JDBC

  • AdditionalOptions: un oggetto JDBCConnectorOptions.

    Opzioni di connessione aggiuntive per il connettore.

  • ConnectionTableUTF— Custom string pattern #43 -8 stringhe, corrispondenti a.

    Il nome della tabella nell'origine dati.

  • Query— UTF -8 stringhe, corrispondenti aCustom string pattern #44.

    La tabella o la SQL query da cui ottenere i dati. Puoi specificare ConnectionTable o query, ma non entrambi.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'JDBCorigine personalizzata.

SparkConnectorSource struttura

Specifica un connettore per un'origine dati Apache Spark.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome dell'origine dati.

  • ConnectionNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della connessione associata al connettore.

  • ConnectorNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome di un connettore che consente di accedere all'archivio dati in AWS Glue Studio.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #43

    Il tipo di connessione, come marketplace.spark o custom.spark, che designa una connessione a un archivio dati di Apache Spark.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Opzioni di connessione aggiuntive per il connettore.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Spark personalizzata.

CatalogSource struttura

Speciifica un data store nel AWS Glue Data Catalog.

Campi

M - Struttura del ySQLCatalog codice sorgente

Speciifica una fonte di SQL dati My nel AWS Glue Data Catalog.

Campi

P Struttura del ostgreSQLCatalog codice sorgente

Specifica un'origine SQL dati Postgres nel Data Catalog. AWS Glue

Campi

O Struttura del racleSQLCatalog codice sorgente

Speciifica un'origine dati Oracle nel AWS Glue Data Catalog.

Campi

icrosoftSQLServerCatalogSource Struttura M

Specifica un'origine dati per SQL server Microsoft nel AWS Glue Data Catalog.

Campi

CatalogKinesisSource struttura

Specifica un'origine dati Kinesis nel Data Catalog AWS Glue .

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome dell'origine dati.

  • WindowSize: numero (intero), non superiore a Nessuno.

    La quantità di tempo da dedicare all'elaborazione di ciascun micro batch.

  • DetectSchema: booleano.

    Se determinare automaticamente o meno lo schema dai dati in entrata.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • StreamingOptions: un oggetto KinesisStreamingSourceOptions.

    Opzioni aggiuntive per l'origine dati di streaming Kinesis.

  • DataPreviewOptions: un oggetto StreamingDataPreviewOptions.

    Opzioni aggiuntive per l'anteprima dei dati.

DirectKinesisSource struttura

Specifica un'origine dati Amazon Kinesis diretta.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome dell'origine dati.

  • WindowSize: numero (intero), non superiore a Nessuno.

    La quantità di tempo da dedicare all'elaborazione di ciascun micro batch.

  • DetectSchema: booleano.

    Se determinare automaticamente o meno lo schema dai dati in entrata.

  • StreamingOptions: un oggetto KinesisStreamingSourceOptions.

    Opzioni aggiuntive per l'origine dati di streaming Kinesis.

  • DataPreviewOptions: un oggetto StreamingDataPreviewOptions.

    Opzioni aggiuntive per l'anteprima dei dati.

KinesisStreamingSourceOptions struttura

Opzioni aggiuntive per l'origine dati di streaming Amazon Kinesis.

Campi
  • EndpointUrl— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    L'URLendpoint Kinesis.

  • StreamName— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del flusso di dati Kinesis.

  • Classification— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Una classificazione facoltativa.

  • Delimiter— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica il carattere delimitatore.

  • StartingPosition— UTF -8 stringa (valori validi: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" |timestamp="TIMESTAMP").

    La posizione di partenza nel flusso dei dati Kinesis da cui leggere i dati. I valori possibili sono"latest", "trim_horizon""earliest", o una stringa di timestamp nel UTC formato del modello yyyy-mm-ddTHH:MM:SSZ (dove Z rappresenta UTC uno scostamento del fuso orario con un +/-. Ad esempio: «2023-04-04T 08:00:00-04:00 «). Il valore predefinito è "latest".

    Nota: l'utilizzo di un valore che è una stringa di timestamp nel UTC formato "" è supportato solo per la versione 4.0 o successiva. startingPosition AWS Glue

  • MaxFetchTimeInMs: numero (long), non superiore a Nessuno.

    Il tempo massimo impiegato dall'esecutore del lavoro per leggere i record del batch corrente dal flusso di dati Kinesis, specificato in millisecondi (ms). È possibile GetRecords API effettuare più chiamate entro questo periodo. Il valore di default è 1000.

  • MaxFetchRecordsPerShard: numero (long), non superiore a Nessuno.

    Il numero massimo di record da recuperare per shard nel flusso di dati Kinesis per microbatch. Nota: il client può superare questo limite se il job di streaming ha già letto record aggiuntivi da Kinesis (nella stessa chiamata get-records). Se MaxFetchRecordsPerShard deve essere rigoroso, deve essere un multiplo di. MaxRecordPerRead Il valore di default è 100000.

  • MaxRecordPerRead: numero (long), non superiore a Nessuno.

    Il numero massimo di record da recuperare dal flusso di dati Kinesis in getRecords ogni operazione. Il valore predefinito è 10000.

  • AddIdleTimeBetweenReads: booleano.

    Aggiunge un ritardo tra due operazioni consecutive getRecords . Il valore predefinito è "False". Questa opzione è configurabile solo per Glue versione 2.0 e successive.

  • IdleTimeBetweenReadsInMs: numero (long), non superiore a Nessuno.

    Il ritardo minimo tra due getRecords operazioni consecutive, specificato in ms. Il valore predefinito è 1000. Questa opzione è configurabile solo per Glue versione 2.0 e successive.

  • DescribeShardInterval: numero (long), non superiore a Nessuno.

    L'intervallo di tempo minimo tra due ListShards API chiamate entro il quale lo script deve prendere in considerazione la resharding. Il valore predefinito è 1s.

  • NumRetries: numero (intero), non superiore a Nessuno.

    Il numero massimo di tentativi per le richieste Kinesis Data Streams. API Il valore di default è 3.

  • RetryIntervalMs: numero (long), non superiore a Nessuno.

    Il periodo di riflessione (specificato in ms) prima di riprovare la chiamata Kinesis Data Streams. API Il valore di default è 1000.

  • MaxRetryIntervalMs: numero (long), non superiore a Nessuno.

    Il periodo di raffreddamento massimo (specificato in ms) tra due tentativi di una chiamata Kinesis Data Streams. API Il valore predefinito è 10000.

  • AvoidEmptyBatches: booleano.

    Impedisce la creazione di un processo microbatch vuoto controllando la presenza di dati non letti nel flusso dei dati Kinesis prima che il batch venga avviato. Il valore predefinito è "False".

  • StreamArn— UTF -8 stringa, corrispondente a. Custom string pattern #43

    L'Amazon Resource Name (ARN) del flusso di dati Kinesis.

  • RoleArn— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    L'Amazon Resource Name (ARN) del ruolo da assumere utilizzando AWS Security Token Service (AWSSTS). Questo ruolo deve disporre delle autorizzazioni per descrivere o leggere le operazioni dei registri per il flusso di dati Kinesis. Quando si accede a un flusso di dati in un altro account, è necessario utilizzare questo parametro. Usato in combinazione con "awsSTSSessionName".

  • RoleSessionName— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Un identificatore per la sessione che assume il ruolo utilizzando. AWS STS Quando si accede a un flusso di dati in un altro account, è necessario utilizzare questo parametro. Usato in combinazione con "awsSTSRoleARN".

  • AddRecordTimestamp— UTF -8 stringa, corrispondente a. Custom string pattern #43

    Quando questa opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "__src_timestamp" che indica l'ora in cui il record corrispondente è stato ricevuto dal flusso. Il valore predefinito è "false". Questa opzione è supportata nella AWS Glue versione 4.0 o successiva.

  • EmitConsumerLagMetrics— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Quando questa opzione è impostata su «true», per ogni batch emette le metriche relative alla durata compresa tra il record più vecchio ricevuto dallo stream e il momento in AWS Glue cui arriva. CloudWatch Il nome della metrica è «glue.driver.streaming. maxConsumerLagInMs». Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.

  • StartingTimestamp— UTF -8 corde.

    Il timestamp del record nel flusso di dati Kinesis da cui iniziare la lettura dei dati. I valori possibili sono una stringa di timestamp nel UTC formato del pattern yyyy-mm-ddTHH:MM:SSZ (dove Z rappresenta un offset del UTC fuso orario con un +/-. Ad esempio: «2023-04-04T 08:00:00 + 08:00 «).

CatalogKafkaSource struttura

Specifica un archivio dati Apache Kafka nel catalogo dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del archivio dati.

  • WindowSize: numero (intero), non superiore a Nessuno.

    La quantità di tempo da dedicare all'elaborazione di ciascun micro batch.

  • DetectSchema: booleano.

    Se determinare automaticamente o meno lo schema dai dati in entrata.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • StreamingOptions: un oggetto KafkaStreamingSourceOptions.

    Specifica le opzioni di streaming.

  • DataPreviewOptions: un oggetto StreamingDataPreviewOptions.

    Specifica le opzioni relative all'anteprima dei dati per la visualizzazione di un campione dei dati.

DirectKafkaSource struttura

Specifica un archivio dati Apache Kafka.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del archivio dati.

  • StreamingOptions: un oggetto KafkaStreamingSourceOptions.

    Specifica le opzioni di streaming.

  • WindowSize: numero (intero), non superiore a Nessuno.

    La quantità di tempo da dedicare all'elaborazione di ciascun micro batch.

  • DetectSchema: booleano.

    Se determinare automaticamente o meno lo schema dai dati in entrata.

  • DataPreviewOptions: un oggetto StreamingDataPreviewOptions.

    Specifica le opzioni relative all'anteprima dei dati per la visualizzazione di un campione dei dati.

KafkaStreamingSourceOptions struttura

Opzioni aggiuntive per lo streaming.

Campi
  • BootstrapServers— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Un elenco di server di bootstrapURLs, ad esempio, comeb-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Questa opzione deve essere specificata nella API chiamata o definita nei metadati della tabella nel Data Catalog.

  • SecurityProtocol— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il protocollo utilizzato per comunicare con i broker. I valori possibili sono "SSL" o "PLAINTEXT".

  • ConnectionName— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il nome della connessione.

  • TopicName— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il nome dell'argomento come specificato in Apache Kafka. Devi specificare almeno uno tra "topicName", "assign" o "subscribePattern".

  • Assign— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Lo specifico TopicPartitions per consumare. Devi specificare almeno uno tra "topicName", "assign" o "subscribePattern".

  • SubscribePattern— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Uuna stringa regex Java che identifichi l'elenco degli argomenti a cui effettuare la sottoscrizione. Devi specificare almeno uno tra "topicName", "assign" o "subscribePattern".

  • Classification— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Una classificazione facoltativa.

  • Delimiter— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica il carattere delimitatore.

  • StartingOffsets— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    La posizione di partenza nell'argomento Kafka da cui leggere i dati. I valori possibili sono "earliest" o "latest". Il valore predefinito è "latest".

  • EndingOffsets— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    L'endpoint al quale viene terminata una query batch. I valori possibili sono uno "latest" o una JSON stringa che specifica un offset finale per ciascuno di essi. TopicPartition

  • PollTimeoutMs: numero (long), non superiore a Nessuno.

    Il timeout in millisecondi per il polling dei dati da Kafka negli esecutori del processo Spark. Il valore predefinito è 512.

  • NumRetries: numero (intero), non superiore a Nessuno.

    Il numero di tentativi prima di non riuscire a recuperare gli offset Kafka. Il valore di default è 3.

  • RetryIntervalMs: numero (long), non superiore a Nessuno.

    Il tempo di attesa in millisecondi prima di riprovare a recuperare gli offset Kafka. Il valore di default è 10.

  • MaxOffsetsPerTrigger: numero (long), non superiore a Nessuno.

    Il limite di velocità sul numero massimo di offset elaborati per intervallo di attivazione. Il numero totale di offset specificato viene suddiviso proporzionalmente tra topicPartitions di diversi volumi. Il valore di default è null, il che significa che il consumer legge tutti gli offset fino all'ultimo offset noto.

  • MinPartitions: numero (intero), non superiore a Nessuno.

    Il numero minimo desiderato di partizioni da leggere da Kafka. Il valore di default è null, il che significa che il numero di partizioni Spark è uguale al numero di partizioni Kafka.

  • IncludeHeaders: booleano.

    Se includere le intestazioni di Kafka. Quando l'opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "glue_streaming_kafka_headers" con tipo Array[Struct(key: String, value: String)]. Il valore di default è "false". Questa opzione è disponibile solo nella AWS Glue versione 3.0 o successiva.

  • AddRecordTimestamp— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Quando questa opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "__src_timestamp" che indica l'ora in cui il record corrispondente è stato ricevuto dall'argomento. Il valore predefinito è "false". Questa opzione è supportata nella AWS Glue versione 4.0 o successiva.

  • EmitConsumerLagMetrics— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Quando questa opzione è impostata su «true», per ogni batch emette le metriche relative alla durata compresa tra il record più vecchio ricevuto dall'argomento e il momento in AWS Glue cui arriva. CloudWatch Il nome della metrica è «glue.driver.streaming. maxConsumerLagInMs». Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.

  • StartingTimestamp— UTF -8 corde.

    Il timestamp del record nell'argomento Kinesis da cui iniziare la lettura dei dati. I valori possibili sono una stringa di timestamp nel UTC formato del pattern yyyy-mm-ddTHH:MM:SSZ (dove Z rappresenta un offset del UTC fuso orario con un +/-. Ad esempio: «2023-04-04T 08:00:00 + 08:00 «).

    Deve essere impostato solo un valore tra StartingTimestamp e StartingOffsets.

RedshiftSource struttura

Specifica un archivio dati Amazon Redshift.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome dell'archivio dati Amazon Redshift.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    La tabella del database da cui leggere.

  • RedshiftTmpDir— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il percorso Amazon S3 in cui i dati temporanei possono essere caricati durante la copia dal database.

  • TmpDirIAMRole— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il IAM ruolo con autorizzazioni.

AmazonRedshiftSource struttura

Il nome della connessione è l'origine Amazon Redshift.

Campi

AmazonRedshiftNodeData struttura

Specifica un nodo Amazon Redshift.

Campi
  • AccessType— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Il tipo di accesso per la connessione Redshift. Può essere una connessione diretta o una connessione al catalogo.

  • SourceType— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Il tipo di origine per specificare se una tabella specifica è l'origine o una query personalizzata.

  • Connection: un oggetto Opzione.

    La AWS Glue connessione al cluster Redshift.

  • Schema: un oggetto Opzione.

    Il nome dello schema Redshift quando si lavora con una connessione diretta.

  • Table: un oggetto Opzione.

    Il nome della tabella Redshift quando si lavora con una connessione diretta.

  • CatalogDatabase: un oggetto Opzione.

    Il nome del database AWS Glue Data Catalog quando si lavora con un catalogo di dati.

  • CatalogTable: un oggetto Opzione.

    Il nome della tabella AWS Glue Data Catalog quando si lavora con un catalogo di dati.

  • CatalogRedshiftSchema— UTF -8 stringhe.

    Il nome dello schema Redshift quando si lavora con un catalogo dati.

  • CatalogRedshiftTable— UTF -8 corde.

    La tabella del database da cui leggere.

  • TempDir— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il percorso Amazon S3 in cui i dati temporanei possono essere caricati durante la copia dal database.

  • IamRole: un oggetto Opzione.

    Facoltativo. Il nome del ruolo utilizzato durante la connessione a S3. Se lasciato vuoto, il ruolo assumerà per impostazione predefinita il ruolo nella mansione. IAM

  • AdvancedOptions: una matrice di oggetti AmazonRedshiftAdvancedOption.

    Valori facoltativi durante la connessione al cluster Redshift.

  • SampleQuery— UTF -8 stringhe.

    SQLViene utilizzato per recuperare i dati da una fonte Redshift quando SourceType è 'query'.

  • PreActionUTF— -8 corde.

    SQLViene utilizzato prima dell'esecuzione di un MERGE o APPEND con upsert.

  • PostAction— UTF -8 corde.

    SQLViene utilizzato prima dell'esecuzione di un MERGE o APPEND con upsert.

  • Action— UTF -8 corde.

    Specifica come verrà eseguita la scrittura su un cluster Redshift.

  • TablePrefix— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Specifica il prefisso di una tabella.

  • Upsert: booleano.

    L'azione utilizzata su Redshift si interrompe quando si esegue un. APPEND

  • MergeAction— UTF -8 stringhe, corrispondenti a. Custom string pattern #42

    L'azione utilizzata per determinare come verrà gestito un sink MERGE in Redshift.

  • MergeWhenMatched— UTF -8 stringhe, corrispondenti a. Custom string pattern #42

    L'azione utilizzata per determinare come verrà gestito un sink MERGE in Redshift quando un record esistente corrisponde a un nuovo record.

  • MergeWhenNotMatched— UTF -8 stringhe, corrispondenti a. Custom string pattern #42

    L'azione utilizzata per determinare come verrà gestito un sink MERGE in Redshift quando un record esistente non corrisponde a un nuovo record.

  • MergeClause— -8 corde. UTF

    SQLViene utilizzato in un'unione personalizzata per gestire i record corrispondenti.

  • CrawlerConnection— UTF -8 corde.

    Specifica il nome della connessione associata alla tabella del catalogo utilizzata.

  • TableSchema: una matrice di oggetti Opzione.

    L'array di output dello schema per un determinato nodo.

  • StagingTable— UTF -8 corde.

    Il nome della tabella intermedia temporanea che viene utilizzata quando si esegue un MERGE o APPEND con upsert.

  • SelectedColumns: una matrice di oggetti Opzione.

    L'elenco dei nomi delle colonne utilizzati per determinare un record corrispondente quando si esegue un MERGE o APPEND con upsert.

AmazonRedshiftAdvancedOption struttura

Specifica un valore facoltativo per la connessione al cluster Redshift.

Campi
  • Key— UTF -8 corde.

    La chiave dell'opzione di connessione aggiuntiva.

  • Value— UTF -8 corde.

    Il valore dell'opzione di connessione aggiuntiva.

Struttura Option

Specifica il valore di un'opzione.

Campi

Struttura S3 CatalogSource

Speciifica un data store Amazon S3 nel Data Catalog AWS Glue .

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del archivio dati.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    La tabella del database da cui leggere.

  • PartitionPredicate— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Le partizioni che soddisfano questo predicato vengono eliminate. I file all'interno del periodo di conservazione in queste partizioni non vengono eliminati. Impostato su "": vuoto per impostazione predefinita.

  • AdditionalOptions: un oggetto S3 SourceAdditionalOptions.

    Specifica opzioni di connessione aggiuntive.

Struttura S3 SourceAdditionalOptions

Specifica opzioni di connessione aggiuntive per l'archivio dati Amazon S3.

Campi
  • BoundedSize: numero (lungo).

    Imposta il limite superiore per la dimensione di destinazione del set di dati in byte che verranno elaborati.

  • BoundedFiles: numero (lungo).

    Imposta il limite superiore per il numero di file di destinazione che verranno elaborati.

Struttura S3 CsvSource

Speciifica un data store con valore separato da comando (CSV) archiviato in Amazon S3.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome del archivio dati.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 da cui leggere.

  • CompressionType— UTF -8 stringhe (valori validi: gzip="GZIP" |bzip2="BZIP2").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • Exclusions— Un array di UTF -8 stringhe.

    Una stringa contenente un JSON elenco di modelli di glob in stile Unix da escludere. Ad esempio, «[\" **.pdf\ "]» esclude tutti i file. PDF

  • GroupSize— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    La dimensione del gruppo di destinazione in byte. Il valore di default viene calcolato in base alla dimensione dei dati di input e alle dimensioni del cluster. Quando sono presenti meno di 50.000 file di input, "groupFiles" deve essere impostato su "inPartition" per rendere effettiva la modifica.

  • GroupFiles— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Quando l'input contiene più di 50.000 file, il raggruppamento di file è attivato per impostazione predefinita. Per attivare il raggruppamento con meno di 50.000 file, imposta questo parametro su "»inPartition. Per disabilitare il raggruppamento in presenza di più di 50.000 file, imposta il parametro su "none".

  • Recurse: booleano.

    Se è impostato su "vero", legge i file in modo ricorsivo in tutte le sottodirectory dei percorsi specificati.

  • MaxBand: numero (intero), non superiore a Nessuno.

    Questa opzione controlla la durata in millisecondi dopo la quale è probabile che l'elenco s3 sia coerente. I file con timestamp di modifica che rientrano negli ultimi maxBand millisecondi vengono tracciati in particolare quando vengono utilizzati JobBookmarks per tenere conto della coerenza finale di Amazon S3. Per la maggior parte degli utenti non è necessario impostare questa opzione. Il valore di default è 900.000 millisecondi o 15 minuti.

  • MaxFilesInBand: numero (intero), non superiore a Nessuno.

    Questa opzione specifica il numero massimo di file da salvare negli ultimi secondi. maxBand Se si supera questo valore, i file aggiuntivi vengono saltati e solo elaborati nella successiva esecuzione del processo.

  • AdditionalOptions: un oggetto S3 DirectSourceAdditionalOptions.

    Specifica opzioni di connessione aggiuntive.

  • SeparatorObbligatorio: UTF -8 stringhe (valori validi: comma="COMMA" | ctrla="CTRLA" | pipe="PIPE" | semicolon="SEMICOLON" |tab="TAB").

    Specifica il carattere delimitatore. Il valore di default è una virgola: ",", ma è possibile specificare qualsiasi altro carattere.

  • Escaper— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica un carattere di escape. Questa opzione viene utilizzata solo per la lettura di CSV file. Il valore predefinito è none. Se questa opzione è abilitata, il carattere immediatamente seguente viene usato così come è, ad eccezione di un piccolo set di caratteri di escape ben noti (\n, \r, \t e \0).

  • QuoteCharObbligatorio: UTF -8 stringhe (valori validi: quote="QUOTE" quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" | |disabled="DISABLED").

    Specifica il carattere da usare per le virgolette. Per impostazione predefinita vengono usate le virgolette doppie: '"'. Imposta questo valore su -1 per disattivare completamente le virgolette.

  • Multiline: booleano.

    Un valore booleano che specifica se un singolo registro può estendersi su più righe. Ciò può accadere quando un campo contiene un carattere di nuova riga tra virgolette. Imposta questa opzione su "Vero" se un qualsiasi registro si estende su più righe. Il valore di default è False, che consente una divisione dei file più netta durante l'analisi.

  • WithHeader: booleano.

    Un valore booleano che specifica se trattare la prima riga come intestazione. Il valore predefinito è False.

  • WriteHeader: booleano.

    Un valore booleano che specifica se scrivere l'intestazione nell'output. Il valore predefinito è True.

  • SkipFirst: booleano.

    Un valore booleano che specifica se ignorare la prima riga di dati. Il valore predefinito è False.

  • OptimizePerformance: booleano.

    Un valore booleano che specifica se utilizzare il SIMD CSV lettore avanzato insieme ai formati di memoria colonnare basati su Apache Arrow. Disponibile solo nella versione 3.0. AWS Glue

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema dei dati per l'origine S3CSV.

Struttura D irectJDBCSource

Speciifica la connessione diretta alla JDBC fonte.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome della connessione JDBC di origine.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il database della connessione JDBC sorgente.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    La tabella della connessione JDBC sorgente.

  • ConnectionNameRichiesto: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    Il nome della connessione della JDBC sorgente.

  • ConnectionTypeRichiesto: UTF -8 stringhe (valori validi: sqlserver mysql | oracle | | postgresql |redshift).

    Il tipo di connessione della JDBC sorgente.

  • RedshiftTmpDir— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    La directory temporanea del sorgente JDBC Redshift.

Struttura S3 DirectSourceAdditionalOptions

Specifica opzioni di connessione aggiuntive per l'archivio dati Amazon S3.

Campi
  • BoundedSize: numero (lungo).

    Imposta il limite superiore per la dimensione di destinazione del set di dati in byte che verranno elaborati.

  • BoundedFiles: numero (lungo).

    Imposta il limite superiore per il numero di file di destinazione che verranno elaborati.

  • EnableSamplePath: booleano.

    Imposta l'opzione per abilitare un percorso di esempio.

  • SamplePath— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Se abilitato, specifica il percorso di esempio.

Struttura S3 JsonSource

Speciifica un archivio JSON dati archiviato in Amazon S3.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del archivio dati.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 da cui leggere.

  • CompressionType— UTF -8 stringhe (valori validi: gzip="GZIP" |bzip2="BZIP2").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • Exclusions— Un array di UTF -8 stringhe.

    Una stringa contenente un JSON elenco di modelli di glob in stile Unix da escludere. Ad esempio, «[\" **.pdf\ "]» esclude tutti i file. PDF

  • GroupSize— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    La dimensione del gruppo di destinazione in byte. Il valore di default viene calcolato in base alla dimensione dei dati di input e alle dimensioni del cluster. Quando sono presenti meno di 50.000 file di input, "groupFiles" deve essere impostato su "inPartition" per rendere effettiva la modifica.

  • GroupFiles— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Quando l'input contiene più di 50.000 file, il raggruppamento di file è attivato per impostazione predefinita. Per attivare il raggruppamento con meno di 50.000 file, imposta questo parametro su "»inPartition. Per disabilitare il raggruppamento in presenza di più di 50.000 file, imposta il parametro su "none".

  • Recurse: booleano.

    Se è impostato su "vero", legge i file in modo ricorsivo in tutte le sottodirectory dei percorsi specificati.

  • MaxBand: numero (intero), non superiore a Nessuno.

    Questa opzione controlla la durata in millisecondi dopo la quale è probabile che l'elenco s3 sia coerente. I file con timestamp di modifica che rientrano negli ultimi maxBand millisecondi vengono tracciati in particolare quando vengono utilizzati JobBookmarks per tenere conto della coerenza finale di Amazon S3. Per la maggior parte degli utenti non è necessario impostare questa opzione. Il valore di default è 900.000 millisecondi o 15 minuti.

  • MaxFilesInBand: numero (intero), non superiore a Nessuno.

    Questa opzione specifica il numero massimo di file da salvare negli ultimi secondi. maxBand Se si supera questo valore, i file aggiuntivi vengono saltati e solo elaborati nella successiva esecuzione del processo.

  • AdditionalOptions: un oggetto S3 DirectSourceAdditionalOptions.

    Specifica opzioni di connessione aggiuntive.

  • JsonPath— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Una JsonPath stringa che definisce i JSON dati.

  • Multiline: booleano.

    Un valore booleano che specifica se un singolo registro può estendersi su più righe. Ciò può accadere quando un campo contiene un carattere di nuova riga tra virgolette. Imposta questa opzione su "Vero" se un qualsiasi registro si estende su più righe. Il valore di default è False, che consente una divisione dei file più netta durante l'analisi.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema dei dati per l'origine S3JSON.

Struttura S3 ParquetSource

Specifica un archivio dati di Apache Parquet archiviato in Amazon S3.

Campi
  • NameRichiesto: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del archivio dati.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 da cui leggere.

  • CompressionType— UTF -8 stringhe (valori validi: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" |none="NONE").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • Exclusions— Un array di UTF -8 stringhe.

    Una stringa contenente un JSON elenco di modelli di glob in stile Unix da escludere. Ad esempio, «[\" **.pdf\ "]» esclude tutti i file. PDF

  • GroupSize— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    La dimensione del gruppo di destinazione in byte. Il valore di default viene calcolato in base alla dimensione dei dati di input e alle dimensioni del cluster. Quando sono presenti meno di 50.000 file di input, "groupFiles" deve essere impostato su "inPartition" per rendere effettiva la modifica.

  • GroupFiles— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Quando l'input contiene più di 50.000 file, il raggruppamento di file è attivato per impostazione predefinita. Per attivare il raggruppamento con meno di 50.000 file, imposta questo parametro su "»inPartition. Per disabilitare il raggruppamento in presenza di più di 50.000 file, imposta il parametro su "none".

  • Recurse: booleano.

    Se è impostato su "vero", legge i file in modo ricorsivo in tutte le sottodirectory dei percorsi specificati.

  • MaxBand: numero (intero), non superiore a Nessuno.

    Questa opzione controlla la durata in millisecondi dopo la quale è probabile che l'elenco s3 sia coerente. I file con timestamp di modifica che rientrano negli ultimi maxBand millisecondi vengono tracciati in particolare quando vengono utilizzati JobBookmarks per tenere conto della coerenza finale di Amazon S3. Per la maggior parte degli utenti non è necessario impostare questa opzione. Il valore di default è 900.000 millisecondi o 15 minuti.

  • MaxFilesInBand: numero (intero), non superiore a Nessuno.

    Questa opzione specifica il numero massimo di file da salvare negli ultimi secondi. maxBand Se si supera questo valore, i file aggiuntivi vengono saltati e solo elaborati nella successiva esecuzione del processo.

  • AdditionalOptions: un oggetto S3 DirectSourceAdditionalOptions.

    Specifica opzioni di connessione aggiuntive.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Parquet S3 personalizzata.

Struttura S3 DeltaSource

Specifica un'origine dati Delta Lake memorizzata in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome dell'origine del Delta Lake.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 da cui leggere.

  • AdditionalDeltaOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #43

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • AdditionalOptions: un oggetto S3 DirectSourceAdditionalOptions.

    Specifica opzioni aggiuntive per il connettore.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Delta Lake.

Struttura S3 CatalogDeltaSource

Speciifica un'origine dati Delta Lake registrata nel AWS Glue Data Catalog. L'origine dati deve essere archiviata in Amazon S3.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #45.

    Il nome dell'origine dati Delta Lake.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • AdditionalDeltaOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Delta Lake.

CatalogDeltaSource struttura

Specifica un'origine dati Delta Lake registrata nel AWS Glue Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome dell'origine dati Delta Lake.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • AdditionalDeltaOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Delta Lake.

Struttura S3 HudiSource

Speciifica una fonte di dati Hudi memorizzata in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome dell'origine Hudi.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un elenco dei percorsi Amazon S3 da cui leggere.

  • AdditionalHudiOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #43

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • AdditionalOptions: un oggetto S3 DirectSourceAdditionalOptions.

    Specifica opzioni aggiuntive per il connettore.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Hudi.

Struttura S3 CatalogHudiSource

Speciifica una fonte di dati Hudi registrata nel Data Catalog. AWS Glue L'origine dati Hudi deve essere archiviata in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome dell'origine dati Hudi.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • AdditionalHudiOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Hudi.

CatalogHudiSource struttura

Specifica un'origine dati Hudi registrata nel AWS Glue Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome dell'origine dati Hudi.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nel database da cui leggere.

  • AdditionalHudiOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica opzioni di connessione aggiuntive.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per l'origine Hudi.

D Struttura del ynamoDBCatalog codice sorgente

Specifica un'origine dati DynamoDB nel Data Catalog. AWS Glue

Campi

RelationalCatalogSource struttura

Specifica un'origine dei dati del database relazionale nel Catalogo dati di AWS Glue .

Campi

JDBCConnectorTargetstruttura

Specifica una destinazioni di dati che scrive su Amazon S3 nell'archiviazione colonnare di Apache Parquet.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • ConnectionNameObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome della connessione associata al connettore.

  • ConnectionTableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella nella destinazione di dati.

  • ConnectorNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome di un connettore che verrà utilizzato.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il tipo di connessione, ad esempio marketplace.jdbc o custom.jdbc, che designa una connessione a una destinazione dati. JDBC

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di -8, corrispondente a. UTF Custom string pattern #43

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Opzioni di connessione aggiuntive per il connettore.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per la JDBC destinazione.

SparkConnectorTarget struttura

Specifica una destinazione che utilizza un connettore Apache Spark.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • ConnectionNameObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome di una connessione per un connettore Apache Spark.

  • ConnectorNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome di un connettore Apache Spark.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il tipo di connessione, come marketplace.spark o custom.spark, che designa una connessione a un archivio dati di Apache Spark.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Opzioni di connessione aggiuntive per il connettore.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per la destinazione Spark personalizzata.

BasicCatalogTarget struttura

Speciifica una destinazione che utilizza una tabella del catalogo AWS Glue dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome della destinazione di dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Le chiavi di partizione utilizzate per distribuire i dati su più partizioni o frammenti in base a una chiave o un set di chiavi specifico.

  • DatabaseRichiesto: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il database che contiene la tabella da utilizzare come destinazione. Questo database deve esistere già nel catalogo dati.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    La tabella che definisce lo schema dei dati di output. Questa tabella deve esistere già nel Data Catalog.

M - Struttura ySQLCatalog dell'obiettivo

Speciifica una destinazione che utilizza MySQL.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • DatabaseObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del database in cui scrivere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella del database in cui scrivere.

P Struttura ostgreSQLCatalog dell'obiettivo

Speciifica un target che utilizza SQL Postgres.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • DatabaseObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del database in cui scrivere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella del database in cui scrivere.

O Struttura racleSQLCatalog dell'obiettivo

Speciifica una destinazione che utilizza OracleSQL.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • DatabaseObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del database in cui scrivere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella del database in cui scrivere.

icrosoftSQLServerCatalogTarget Struttura M

Speciifica una destinazione che utilizza MicrosoftSQL.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • DatabaseObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del database in cui scrivere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella del database in cui scrivere.

RedshiftTarget struttura

Specifica una destinazione che utilizza Amazon Redshift.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • DatabaseObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il nome del database in cui scrivere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome della tabella del database in cui scrivere.

  • RedshiftTmpDir— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il percorso Amazon S3 in cui i dati temporanei possono essere caricati durante la copia dal database.

  • TmpDirIAMRole— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il IAM ruolo con autorizzazioni.

  • UpsertRedshiftOptions: un oggetto UpsertRedshiftTargetOptions.

    Il set di opzioni per configurare un'operazione di upsert durante la scrittura su una destinazione Redshift.

AmazonRedshiftTarget struttura

Specifica una destinazione Amazon Redshift.

Campi
  • Name— UTF -8 stringhe, corrispondenti aCustom string pattern #45.

    Il nome della tabella Amazon Redshift.

  • Data: un oggetto AmazonRedshiftNodeData.

    Specifica i dati del nodo di destinazione Amazon Redshift.

  • Inputs— Un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

UpsertRedshiftTargetOptions struttura

Le opzioni per configurare un'operazione di upsert durante la scrittura su una destinazione Redshift.

Campi
  • TableLocation— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    La posizione fisica della tabella Redshift.

  • ConnectionName— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il nome della connessione da usare per scrivere su Redshift.

  • UpsertKeys— Un array di UTF -8 stringhe.

    Le chiavi utilizzate per determinare se eseguire un aggiornamento o un inserimento.

Struttura S3 CatalogTarget

Speciifica un target di dati che scrive su Amazon S3 utilizzando AWS Glue il Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • TableObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il nome della tabella del database in cui scrivere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database in cui scrivere.

  • SchemaChangePolicy: un oggetto CatalogSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 GlueParquetTarget

Specifica una destinazioni di dati che scrive su Amazon S3 nell'archiviazione colonnare di Apache Parquet.

Campi
  • NameRichiesto: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • PathObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Un singolo percorso Amazon S3 su cui scrivere.

  • Compression— UTF -8 stringa (valori validi: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" |none="NONE").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • SchemaChangePolicy: un oggetto DirectSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

CatalogSchemaChangePolicy struttura

Una policy che specifica i comportamenti di aggiornamento per il crawler.

Campi
  • EnableUpdateCatalog: booleano.

    Stabilisce se usare il comportamento di aggiornamento quando il crawler riscontra una variazione dello schema.

  • UpdateBehavior— UTF -8 stringhe (valori validi: UPDATE_IN_DATABASE |LOG).

    Il comportamento di aggiornamento quando il crawler riscontra una variazione dello schema.

Struttura S3 DirectTarget

Specifica una destinazione di dati che scrive su Amazon S3.

Campi
  • NameRichiesto: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • PathObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Un singolo percorso Amazon S3 su cui scrivere.

  • Compression— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • FormatObbligatorio: UTF -8 string (valori validi: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | |delta="DELTA").

    Specifica il formato di output dei dati per la destinazione.

  • SchemaChangePolicy: un oggetto DirectSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 HudiCatalogTarget

Specifica una destinazione che scrive su un'origine dati Hudi nel Data Catalog. AWS Glue

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • TableObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il nome della tabella del database in cui scrivere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database in cui scrivere.

  • AdditionalOptions: obbligatorio: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto CatalogSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 HudiDirectTarget

Speciifica una destinazione che scrive su una fonte di dati Hudi in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PathObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il percorso Amazon S3 dell'origine dati Hudi su cui scrivere.

  • CompressionObbligatorio: UTF -8 string (valori validi: gzip="GZIP" lzo="LZO" | uncompressed="UNCOMPRESSED" | |snappy="SNAPPY").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • FormatObbligatorio: UTF -8 stringhe (valori validi: json="JSON" csv="CSV" | avro="AVRO" | | orc="ORC" | parquet="PARQUET" | hudi="HUDI" |delta="DELTA").

    Specifica il formato di output dei dati per la destinazione.

  • AdditionalOptions: obbligatorio: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto DirectSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 DeltaCatalogTarget

Speciifica una destinazione che scrive su un'origine dati Delta Lake nel AWS Glue Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • TableObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il nome della tabella del database in cui scrivere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database in cui scrivere.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto CatalogSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

Struttura S3 DeltaDirectTarget

Speciifica una destinazione che scrive su un'origine dati Delta Lake in. Amazon S3

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • PathObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il percorso Amazon S3 dell'origine dati Delta Lake su cui scrivere.

  • CompressionObbligatorio: UTF -8 stringa (valori validi: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Specifica il modo in cui i dati sono compressi. In genere questo non è necessario se i dati hanno un'estensione del file standard. I valori possibili sono "gzip" e "bzip").

  • FormatObbligatorio: UTF -8 stringhe (valori validi: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | |delta="DELTA").

    Specifica il formato di output dei dati per la destinazione.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni di connessione aggiuntive per il connettore.

  • SchemaChangePolicy: un oggetto DirectSchemaChangePolicy.

    Una policy che specifica i comportamenti di aggiornamento per il crawler.

DirectSchemaChangePolicy struttura

Una policy che specifica i comportamenti di aggiornamento per il crawler.

Campi
  • EnableUpdateCatalog: booleano.

    Stabilisce se usare il comportamento di aggiornamento quando il crawler riscontra una variazione dello schema.

  • UpdateBehavior— UTF -8 stringhe (valori validi: UPDATE_IN_DATABASE |LOG).

    Il comportamento di aggiornamento quando il crawler riscontra una variazione dello schema.

  • Table— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Specifica la tabella nel database a cui si applica la policy di modifica dello schema.

  • Database— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica il database a cui si applica la policy di modifica dello schema.

ApplyMapping struttura

Specifica una trasformazione che mappa le chiavi delle proprietà dei dati nell'origine dei dati alle chiavi delle proprietà dei dati nella destinazione. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • Mapping: obbligatorio: una matrice di oggetti Mapping.

    Specifica la mappatura delle chiavi delle proprietà dei dati nell'origine dei dati alle chiavi delle proprietà dei dati nella destinazione.

Struttura mappatura

Specifica la mappatura delle chiavi della proprietà dati.

Campi
  • ToKey— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Dopo l'applicazione della mappatura, quale dovrebbe essere il nome della colonna. Può coincidere con FromPath.

  • FromPath— Un array di UTF -8 stringhe.

    La tabella o la colonna da modificare.

  • FromType— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Il tipo di dati da modificare.

  • ToType— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Tipo di dati che devono essere modificati.

  • Dropped: booleano.

    Se è true, la colonna viene rimossa.

  • Children: una matrice di oggetti Mapping.

    Applicabile solo alle strutture dati nidificate. Se si desidera modificare la struttura padre, ma anche uno dei suoi figli, è possibile compilare questa struttura di dati. È anche Mapping, ma il suo FromPath sarà la struttura padre FromPath più il FromPath da questa struttura.

    Per la parte dei figli, supponiamo di avere la struttura:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Puoi specificare un Mapping con l'aspetto:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields struttura

Specifica una trasformazione che sceglie le chiavi della proprietà dati che si desidera conservare.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un JSON percorso verso una variabile nella struttura dei dati.

DropFields struttura

Specifica una trasformazione che sceglie le chiavi della proprietà dati che si desidera eliminare.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un JSON percorso verso una variabile nella struttura dei dati.

RenameField struttura

Specifica una trasformazione che rinominerà una singola chiave di proprietà dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • SourcePathObbligatorio: un array di UTF -8 stringhe.

    Un JSON percorso verso una variabile nella struttura dei dati per i dati di origine.

  • TargetPathObbligatorio: un array di UTF -8 stringhe.

    Un JSON percorso verso una variabile nella struttura dei dati per i dati di destinazione.

Struttura Spigot

Specifica una trasformazione che scrive campioni dei dati in un bucket Amazon S3.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • PathObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Un percorso in Amazon S3 in cui la trasformazione scriverà un sottoinsieme di record dal set di dati in un JSON file in un bucket Amazon S3.

  • Topk: numero (intero), non superiore a 100.

    Specifica un numero di registri da scrivere a partire dall'inizio del set di dati.

  • Prob: numero (doppio), non superiore a 1.

    La probabilità (un valore decimale con un valore massimo di 1) di scegliere un determinato registro. Il valore 1 indica che ogni riga letta dal set di dati deve essere inclusa nell'output del campione.

Struttura join

Specifica una trasformazione che unisce due set di dati in un unico set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 2 o più di 2 stringhe.

    Gli input di dati identificati dai nomi dei nodi.

  • JoinTypeObbligatorio: UTF -8 stringhe (valori validi: equijoin="EQUIJOIN" | left="LEFT" | | right="RIGHT" | outer="OUTER" leftsemi="LEFT_SEMI" |leftanti="LEFT_ANTI").

    Specifica il tipo di join da eseguire sui set di dati.

  • Columns: obbligatorio: una matrice di oggetti JoinColumn, non inferiore a o superiore a 2 strutture.

    Un elenco delle due colonne da unire.

JoinColumn struttura

Specifica una colonna da unire.

Campi
  • FromObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    La colonna da unire.

  • KeysObbligatorio: un array di UTF -8 stringhe.

    La chiave della colonna da unire.

SplitFields struttura

Specifica una trasformazione che divide le chiavi della proprietà dati in due DynamicFrames. L'output è una raccolta di DynamicFrames: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • PathsObbligatorio: un array di UTF -8 stringhe.

    Un JSON percorso verso una variabile nella struttura dei dati.

SelectFromCollection struttura

Specifica una trasformazione che sceglie un DynamicFrame da una raccolta di DynamicFrames. L'output è il DynamicFrame selezionato

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • Index. Obbligatorio: numero (intero), non superiore a Nessuno.

    L'indice per il DynamicFrame da selezionare.

FillMissingValues struttura

Specifica una trasformazione che individua i registri nel set di dati che hanno valori mancanti e aggiunge un nuovo campo con un valore determinato dall'imputazione. Il set di dati di input viene utilizzato per addestrare il modello di machine learning che determina quale dovrebbe essere il valore mancante.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • ImputedPathObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Un JSON percorso verso una variabile nella struttura dei dati per il set di dati imputato.

  • FilledPath— UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Un JSON percorso verso una variabile nella struttura dei dati per il set di dati che viene riempito.

Struttura filtro

Specifica una trasformazione che divide un set di dati in due, in base a una condizione di filtro.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • LogicalOperatorObbligatorio: UTF -8 stringhe (valori validi: AND |OR).

    L'operatore utilizzato per filtrare le righe confrontando il valore chiave con un valore specificato.

  • Filters: obbligatorio: una matrice di oggetti FilterExpression.

    Specifica un'espressione di filtro.

FilterExpression struttura

Specifica un'espressione di filtro.

Campi
  • OperationRichiesto: UTF -8 stringhe (valori validi: EQ LT | GT | LTE | GTE | | REGEX |ISNULL).

    Tipo di operazione da eseguire nell'espressione.

  • Negated: booleano.

    Se l'espressione deve essere negata.

  • Values: obbligatorio: una matrice di oggetti FilterValue.

    Un elenco di valori di filtro.

FilterValue struttura

Rappresenta un'unica voce nell'elenco di valori di un FilterExpression.

Campi
  • TypeObbligatorio: UTF -8 stringhe (valori validi: COLUMNEXTRACTED |CONSTANT).

    Il tipo di valore del filtro.

  • ValueObbligatorio: un array di UTF -8 stringhe.

    Il valore da associare.

CustomCode struttura

Specifica una trasformazione che utilizza il codice personalizzato fornito per eseguire la trasformazione dei dati. L'output è una raccolta di DynamicFrames.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, almeno 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • CodeObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #36

    Il codice personalizzato utilizzato per eseguire la trasformazione dei dati.

  • ClassNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome definito per la classe del nodo di codice personalizzato.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per la trasformazione del codice personalizzata.

Struttura Spark SQL

Specifica una trasformazione in cui si inserisce una SQL query utilizzando la SQL sintassi Spark per trasformare i dati. L'output è un singolo DynamicFrame.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, almeno 1 stringa.

    Gli input di dati identificati dai nomi dei nodi. È possibile associare un nome di tabella a ciascun nodo di input da utilizzare nella SQL query. Il nome scelto deve soddisfare le restrizioni di SQL denominazione di Spark.

  • SqlQueryObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #44

    Una SQL query che deve utilizzare la SQL sintassi Spark e restituire un singolo set di dati.

  • SqlAliases: obbligatorio: una matrice di oggetti SqlAlias.

    Un elenco di alias. Un alias consente di specificare il nome da utilizzare SQL per un determinato input. Ad esempio, hai una fonte di dati denominata "». MyDataSource Se specifichi From as MyDataSource e Alias as SqlName, allora nel tuo SQL puoi fare:

    select * from SqlName

    e che ottiene dati da MyDataSource.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema dei dati per la trasformazione SparkSQL.

SqlAlias struttura

Rappresenta un'unica voce nell'elenco di valori per SqlAliases.

Campi
  • FromObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #42.

    Una tabella o una colonna in una tabella.

  • AliasObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Un nome temporaneo dato a una tabella o a una colonna in una tabella.

DropNullFields struttura

Specifica una trasformazione che rimuove le colonne dal set di dati se tutti i valori nella colonna sono “null”. Per impostazione predefinita, AWS Glue Studio riconosce gli oggetti nulli, ma alcuni valori come stringhe vuote, stringhe «nulle», numeri interi -1 o altri segnaposto come gli zeri, non vengono riconosciuti automaticamente come nulli.

Campi
  • Name— Obbligatorio: -8 stringhe, corrispondenti a. UTF Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • NullCheckBoxList: un oggetto NullCheckBoxList.

    Struttura che indica se determinati valori siano riconosciuti come valori nulli per la rimozione.

  • NullTextList: una matrice di oggetti NullValueField, non superiore a 50 strutture.

    Una struttura che specifica un elenco di NullValueField strutture che rappresentano un valore nullo personalizzato, ad esempio zero, o un altro valore utilizzato come segnaposto nullo unico per il set di dati.

    La trasformazione DropNullFields rimuove i valori nulli personalizzati solo se sia il valore del segnaposto null che il tipo di dati corrispondono ai dati.

NullCheckBoxList struttura

Indica se alcuni valori siano riconosciuti come valori nulli per la rimozione.

Campi
  • IsEmpty: booleano.

    Specifica che una stringa vuota è considerata un valore nullo.

  • IsNullString: booleano.

    Specifica che un valore che indica la parola “null” è considerato un valore nullo.

  • IsNegOne: booleano.

    Specifica che un valore intero di -1 è considerato un valore nullo.

NullValueField struttura

Rappresenta un valore nullo personalizzato, ad esempio uno zero o un altro valore utilizzato come segnaposto nullo univoco per il set di dati.

Campi
  • ValueObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    Il valore del segnaposto nullo.

  • Datatype: obbligatorio: un oggetto DataType.

    Il tipo di dati del valore.

Struttura Datatype

Struttura che rappresenta il tipo di dati del valore.

Campi

Struttura Merge

Specifica una trasformazione che unisce DynamicFrame a con un DynamicFrame di staging basato sulle chiavi primarie specificate per identificare i registri. I registri duplicati (registri con le stesse chiavi primarie) non vengono deduplicati.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 2 o più di 2 stringhe.

    Gli input di dati identificati dai nomi dei nodi.

  • SourceObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #42

    L'origine DynamicFrame che sarà unita a DynamicFrame di staging.

  • PrimaryKeysObbligatorio: un array di UTF -8 stringhe.

    L'elenco dei campi chiave primaria per abbinare i registri dall'origine e dai frame dinamici di staging.

Struttura unione

Specifica una trasformazione che combina le righe di due o più set di dati in un unico risultato.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 2 o più di 2 stringhe.

    L'ID del nodo immette la trasformazione.

  • UnionTypeObbligatorio: UTF -8 stringhe (valori validi: ALL |DISTINCT).

    Indica il tipo di trasformazione Union.

    ALLSpecificate di unire tutte le righe dalle fonti di dati a quelle risultanti DynamicFrame. L'unione risultante non rimuove le righe duplicate.

    DISTINCTSpecificare di rimuovere le righe duplicate nel risultato DynamicFrame.

PIIDetectionstruttura

Specifica una trasformazione che identifica, rimuove o maschera PII i dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    L'ID del nodo immette la trasformazione.

  • PiiTypeObbligatorio: UTF -8 stringhe (valori validi: RowAudit | | RowMasking ColumnAudit |ColumnMasking).

    Indica il tipo di PIIDetection trasformazione.

  • EntityTypesToDetectObbligatorio: un array di UTF -8 stringhe.

    Indica i tipi di entità che la PIIDetection trasformazione identificherà come PII dati.

    PIIle entità di tipo includono: PERSON USA _ NAMEDATE, SNNEMAIL, USA _ITIN, USA _NUMBER, PASSPORT _, PHONE _NUMBER, BANK _ACCOUNT, MAC IP_ ADDRESSADDRESS, USA _, CPT _ USA _CODE, HCPCS _ USA _CODE, NATIONAL _ DRUG _CODE, USA MEDICARE _ BENEFICIARY _ _IDENTIFIER, USA HEALTH _ INSURANCE _ CLAIM _ _ NUMBERCARD, CREDIT USA _ NATIONAL_ PROVIDER _IDENTIFIER, USA _ DEA _NUMBER, USA _ DRIVING LICENSE

  • OutputColumnName— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Indica il nome della colonna di output che conterrà qualsiasi tipo di entità rilevato in quella riga.

  • SampleFraction: numero (doppio), non superiore a 1.

    Indica la frazione di dati da campionare durante la scansione PII delle entità.

  • ThresholdFraction: numero (doppio), non superiore a 1.

    Indica la frazione di dati che deve essere soddisfatta affinché una colonna possa essere identificata come PII dati.

  • MaskValue— UTF -8 stringhe, di lunghezza non superiore a 256 byte, corrispondente a. Custom string pattern #40

    Indica il valore che sostituirà l'entità rilevata.

Struttura aggregata

Specifica una trasformazione che raggruppa le righe in base ai campi scelti e calcola il valore aggregato in base alla funzione specificata.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Specifica i campi e le righe da utilizzare come input per la trasformazione aggregata.

  • GroupsObbligatorio: un array di UTF -8 stringhe.

    Specifica i campi in base ai quali raggruppare.

  • AggsObbligatorio: una matrice di oggetti AggregateOperation, non meno di 1 o più di 30 strutture.

    Specifica le funzioni di aggregazione da eseguire su campi specificati.

DropDuplicates struttura

Specifica una trasformazione che rimuove le righe di dati ripetuti da un set di dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di trasformazione.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input di dati identificati dai nomi dei nodi.

  • Columns— Un array di UTF -8 stringhe.

    Il nome delle colonne da unire o rimuovere in caso di ripetizione.

GovernedCatalogTarget struttura

Speciifica un target di dati che scrive su Amazon S3 utilizzando AWS Glue il Data Catalog.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #45

    Il nome di destinazione dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

  • PartitionKeys— Un array di UTF -8 stringhe.

    Specifica il partizionamento nativo utilizzando una sequenza di chiavi.

  • TableObbligatorio: UTF -8 stringhe, corrispondente a. Custom string pattern #43

    Il nome della tabella del database in cui scrivere.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il nome del database in cui scrivere.

  • SchemaChangePolicy: un oggetto CatalogSchemaChangePolicy.

    Una policy che specifica il comportamento di aggiornamento per il catalogo governato.

GovernedCatalogSource struttura

Speciifica l'archivio dati nel AWS Glue Data Catalog governato.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #45

    Il nome del archivio dati.

  • DatabaseObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Il database da cui leggere.

  • TableObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    La tabella del database da cui leggere.

  • PartitionPredicate— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Le partizioni che soddisfano questo predicato vengono eliminate. I file all'interno del periodo di conservazione in queste partizioni non vengono eliminati. Impostato su "": vuoto per impostazione predefinita.

  • AdditionalOptions: un oggetto S3 SourceAdditionalOptions.

    Specifica opzioni di connessione aggiuntive.

AggregateOperation struttura

Specifica il set di parametri necessari per eseguire l'aggregazione nella trasformazione di aggregazione.

Campi
  • ColumnObbligatorio: un array di UTF -8 stringhe.

    Specifica la colonna sul set di dati su cui verrà applicata la funzione di aggregazione.

  • AggFuncObbligatorio: UTF -8 stringhe (valori validi: avg countDistinct count | first | last | kurtosis | max | min | | skewness | stddev_samp | stddev_pop | sum | sumDistinct | var_samp |var_pop).

    Specifica la funzione di aggregazione da applicare.

    Le possibili funzioni di aggregazione includono: avgcountDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, var_samp, var_pop sumDistinct

GlueSchema struttura

Specifica uno schema definito dall'utente quando uno schema non può essere determinato da AWS Glue.

Campi
  • Columns: una matrice di oggetti GlueStudioSchemaColumn.

    Specifica le definizioni delle colonne che costituiscono uno AWS Glue schema.

GlueStudioSchemaColumn struttura

Specifica una singola colonna in una definizione AWS Glue dello schema.

Campi
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non superiore a 1024 byte, corrispondente a. Single-line string pattern

    Il nome della colonna nello schema di AWS Glue Studio.

  • Type— UTF -8 stringa, lunga non più di 131072 byte, corrispondente a. Single-line string pattern

    Il tipo di hive per questa colonna nello schema di Studio. AWS Glue

GlueStudioColumn struttura

Specifica una singola colonna in AWS Glue Studio.

Campi
  • KeyObbligatorio: UTF -8 stringa, corrispondente a. Custom string pattern #43

    La chiave della colonna in AWS Glue Studio.

  • FullPathObbligatorio: un array di UTF -8 stringhe.

    TThecompleto URL della colonna in AWS Glue Studio.

  • TypeObbligatorio: UTF -8 stringhe (valori validi: array="ARRAY" bigint="BIGINT" bigint array="BIGINT_ARRAY" binary="BINARY" binary array="BINARY_ARRAY" boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT"| smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | null="NULL" | unknown="UNKNOWN" |unknown array="UNKNOWN_ARRAY").

    TThetipo di colonna in AWS Glue Studio.

  • Children: un array di strutture.

    TThefigli della colonna principale in AWS Glue Studio.

DynamicTransform struttura

Specifica il set di parametri necessari per eseguire la trasformazione dinamica.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    Specifica il nome della trasformazione dinamica.

  • TransformNameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Specifica il nome della trasformazione dinamica così come appare nell'editor visivo di AWS Glue Studio.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Specifica gli input necessari per la trasformazione dinamica.

  • Parameters: una matrice di oggetti TransformConfigParameter.

    Specifica i parametri della trasformazione dinamica.

  • FunctionNameObbligatorio: UTF -8 stringhe, corrispondenti a. Custom string pattern #43

    Specifica il nome della funzione della trasformazione dinamica.

  • PathObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    Specifica il percorso dei file sorgente e di configurazione della trasformazione dinamica.

  • Version— UTF -8 stringa, corrispondente aCustom string pattern #43.

    Questo campo non è utilizzato e verrà dichiarato obsoleto in una versione futura.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per la trasformazione dinamica.

TransformConfigParameter struttura

Specifica i parametri nel file di configurazione della trasformazione dinamica.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    Specifica il nome del parametro nel file di configurazione della trasformazione dinamica.

  • TypeObbligatorio: UTF -8 string (valori validi: str="STR" int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" | |null="NULL").

    Specifica il tipo di parametro nel file di configurazione della trasformazione dinamica.

  • ValidationRule— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica la regola di convalida nel file di configurazione della trasformazione dinamica.

  • ValidationMessage— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Specifica il messaggio di convalida nel file di configurazione della trasformazione dinamica.

  • Value— Un array di UTF -8 stringhe.

    Specifica il valore del parametro nel file di configurazione della trasformazione dinamica.

  • ListType— UTF -8 stringhe (valori validi: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" |null="NULL").

    Specifica il tipo di elenco del parametro nel file di configurazione della trasformazione dinamica.

  • IsOptional: booleano.

    Specifica se il parametro è facoltativo o meno nel file di configurazione della trasformazione dinamica.

EvaluateDataQuality struttura

Specifica i criteri di valutazione della qualità dei dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome della valutazione della qualità dei dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    Gli input della valutazione della qualità dei dati.

  • RulesetObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 65536 byte, corrispondenti a. Custom string pattern #41

    Il set di regole per la valutazione della qualità dei dati.

  • Output— UTF -8 stringa (valori validi: PrimaryInput |EvaluationResults).

    L'output della valutazione della qualità dei dati.

  • PublishingOptions: un oggetto DQResultsPublishingOptions.

    Opzioni per configurare la modalità di pubblicazione dei risultati.

  • StopJobOnFailureOptions: un oggetto DQStopJobOnFailureOptions.

    Opzioni per configurare come si interromperà il processo se la valutazione della qualità dei dati fallisce.

DQResultsPublishingOptionsstruttura

Opzioni per configurare la modalità di pubblicazione dei risultati della valutazione della qualità dei dati.

Campi
  • EvaluationContext— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Il contesto della valutazione.

  • ResultsS3Prefix— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Il prefisso Amazon S3 aggiunto all'inizio dei risultati.

  • CloudWatchMetricsEnabled: booleano.

    Abilita i parametri per i risultati della qualità dei dati.

  • ResultsPublishingEnabled: booleano.

    Abilita la pubblicazione per i risultati della qualità dei dati.

DQStopJobOnFailureOptionsstruttura

Opzioni per configurare come si interromperà il processo se la valutazione della qualità dei dati fallisce.

Campi
  • StopJobOnFailureTiming— UTF -8 stringhe (valori validi: Immediate |AfterDataLoad).

    Quando interrompere il processo se la valutazione della qualità dei dati fallisce. Le opzioni sono Immediate o AfterDataLoad.

EvaluateDataQualityMultiFrame struttura

Specifica i criteri di valutazione della qualità dei dati.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome della valutazione della qualità dei dati.

  • InputsObbligatorio: un array di UTF -8 stringhe, almeno 1 stringa.

    Gli input della valutazione della qualità dei dati. Il primo input in questo elenco è l'origine dati primaria.

  • AdditionalDataSources: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #45

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Gli alias di tutte le origini dati, tranne quella primaria.

  • RulesetObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 65536 byte, corrispondente a. Custom string pattern #41

    Il set di regole per la valutazione della qualità dei dati.

  • PublishingOptions: un oggetto DQResultsPublishingOptions.

    Opzioni per configurare la modalità di pubblicazione dei risultati.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8 (valori validi: performanceTuning.caching="CacheOption" |observations.scope="ObservationsOption").

    Ogni valore è una stringa UTF -8.

    Opzioni per configurare il comportamento di runtime della trasformazione.

  • StopJobOnFailureOptions: un oggetto DQStopJobOnFailureOptions.

    Opzioni per configurare come si interromperà il processo se la valutazione della qualità dei dati fallisce.

Struttura Recipe

Un nodo AWS Glue Studio che utilizza una AWS Glue DataBrew ricetta nei AWS Glue job.

Campi
  • NameObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #45.

    Il nome del nodo AWS Glue Studio.

  • InputsObbligatorio: un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che costituiscono gli input del nodo della ricetta, identificati dal rispettivo ID.

  • RecipeReference: un oggetto RecipeReference.

    Un riferimento alla DataBrew ricetta usata dal nodo.

  • RecipeSteps: una matrice di oggetti RecipeStep.

    I passaggi di trasformazione utilizzati nel nodo ricetta.

RecipeReference struttura

Un riferimento a una AWS Glue DataBrew ricetta.

Campi
  • RecipeArnObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #43.

    Il ARN contenuto della DataBrew ricetta.

  • RecipeVersionRichiesto: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 16 byte.

    Il RecipeVersion contenuto della DataBrew ricetta.

SnowflakeNodeData struttura

Specifica la configurazione per i nodi Snowflake in Studio. AWS Glue

Campi
  • SourceType— UTF -8 stringa, corrispondente a. Custom string pattern #42

    Specifica come vengono specificati i dati recuperati. Valori validi: "table", "query".

  • Connection: un oggetto Opzione.

    Specifica una connessione al catalogo AWS Glue dati a un endpoint Snowflake.

  • Schema— -8 stringhe. UTF

    Specifica uno schema di database Snowflake da utilizzare per il nodo.

  • Table— UTF -8 corde.

    Specifica una tabella Snowflake da utilizzare per il nodo.

  • Database— UTF -8 corde.

    Specifica un database Snowflake da utilizzare per il nodo.

  • TempDir— UTF -8 stringhe, corrispondenti aCustom string pattern #43.

    Attualmente non utilizzato.

  • IamRole: un oggetto Opzione.

    Attualmente non utilizzato.

  • AdditionalOptions: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Ogni valore è una stringa di UTF -8, corrispondente aCustom string pattern #43.

    Specifica le opzioni aggiuntive trasmesse al connettore Snowflake. Se altre opzioni sono specificate altrove in questo nodo, esse avranno la precedenza.

  • SampleQuery— UTF -8 stringhe.

    Una SQL stringa utilizzata per recuperare i dati con il query sourcetype.

  • PreAction— -8 stringhe. UTF

    Una SQL stringa eseguita prima che il connettore Snowflake esegua le azioni standard.

  • PostAction— UTF -8 corde.

    Una SQL stringa eseguita dopo che il connettore Snowflake esegue le azioni standard.

  • Action— UTF -8 corde.

    Specifica l'operazione da intraprendere quando si scrive su una tabella con dati preesistenti. Valori validi: append, merge, truncate, drop.

  • Upsert: booleano.

    Utilizzato quando Operazione è append. Specifica il comportamento di risoluzione quando esiste già una riga. Se impostato su true, le righe preesistenti verranno aggiornate. Se false, verranno inserite quelle righe.

  • MergeAction— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Specifica un'operazione di unione. Valori validi: simple, custom. Se semplice, il comportamento di unione è definito da MergeWhenMatched e MergeWhenNotMatched. Se personalizzato, definito da MergeClause.

  • MergeWhenMatched— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Specifica come risolvere i record che corrispondono a dati preesistenti durante l'unione. Valori validi: update, delete.

  • MergeWhenNotMatched— UTF -8 stringhe, corrispondenti aCustom string pattern #42.

    Specifica come elaborare i record che non corrispondono a dati preesistenti durante l'unione. Valori validi: insert, none.

  • MergeClause— UTF -8 corde.

    Un'SQListruzione che specifica un comportamento di unione personalizzato.

  • StagingTable— UTF -8 stringhe.

    Il nome di una tabella intermedia utilizzata durante le operazioni merge o append con upsert. I dati vengono scritti in questa tabella, quindi spostati in table da un'azione successiva (PostAction) generata.

  • SelectedColumns: una matrice di oggetti Opzione.

    Specifica le colonne combinate per identificare un record quando vengono rilevate corrispondenze per i merge e gli upsert. Un elenco di strutture con chiavi value, label e description. Ogni struttura descrive una colonna.

  • AutoPushdown: booleano.

    Specifica se il pushdown automatico delle query è abilitato. Se il pushdown è abilitato, quando su Spark viene eseguita una query, se una parte di essa può essere "trasferita" al server Snowflake, viene sottoposta a pushdown. Ciò migliora le prestazioni di alcune query.

  • TableSchema: una matrice di oggetti Opzione.

    Definisce manualmente lo schema di destinazione per il nodo. Un elenco di strutture con chiavi value, label e description. Ogni struttura definisce una colonna.

SnowflakeSource struttura

Specifica un'origine dati Snowflake.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome dell'origine dati Snowflake.

  • Data: obbligatorio: un oggetto SnowflakeNodeData.

    Configurazione per l'origine dati Snowflake.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica gli schemi definiti dall'utente per i dati di output.

SnowflakeTarget struttura

Specifica una destinazione Snowflake.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome della destinazione Snowflake.

  • Data: obbligatorio: un oggetto SnowflakeNodeData.

    Specifica i dati del nodo di destinazione Snowflake.

  • Inputs— Una matrice di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

ConnectorDataSource struttura

Specifica un'origine generata con opzioni di connessione standard.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di origine.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    IlconnectionType, fornito alla AWS Glue libreria sottostante. Il tipo di nodo supporta i tipi di connessione seguenti:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obbligatorio: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF -8.

    Ogni valore è una stringa di UTF -8.

    Una mappa che specifica le opzioni di connessione per il nodo. È possibile trovare le opzioni di connessione standard per il tipo di connessione corrispondente nella sezione Parametri di connessione della AWS Glue documentazione.

  • OutputSchemas: una matrice di oggetti GlueSchema.

    Specifica lo schema di dati per questa origine.

ConnectorDataTarget struttura

Specifica un a destinazione generata con opzioni di connessione standard.

Campi
  • NameObbligatorio: UTF -8 stringhe, corrispondente aCustom string pattern #45.

    Il nome del nodo di destinazione.

  • ConnectionTypeObbligatorio: UTF -8 stringa, corrispondente aCustom string pattern #43.

    IlconnectionType, fornito alla AWS Glue libreria sottostante. Il tipo di nodo supporta i tipi di connessione seguenti:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Data: obbligatorio: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF -8.

    Ogni valore è una stringa di UTF -8.

    Una mappa che specifica le opzioni di connessione per il nodo. È possibile trovare le opzioni di connessione standard per il tipo di connessione corrispondente nella sezione Parametri di connessione della AWS Glue documentazione.

  • Inputs— Un array di UTF -8 stringhe, non meno di 1 o più di 1 stringa.

    I nodi che sono input per la destinazione di dati.

RecipeStep struttura

Una fase della ricetta utilizzata in un nodo di ricetta per la preparazione dei dati di AWS Glue Studio.

Campi
  • Action: obbligatorio: un oggetto RecipeAction.

    L'azione di trasformazione della fase della ricetta.

  • ConditionExpressions: una matrice di oggetti ConditionExpression.

    Le espressioni delle condizioni per la fase della ricetta.

RecipeAction struttura

Azioni definite nel nodo della ricetta di preparazione dei dati di AWS Glue Studio.

Campi
  • OperationObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 128 byte, corrispondente a. Custom string pattern #38

    Il funzionamento dell'azione della ricetta.

  • Parameters: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, lunga non meno di 1 o più di 128 byte, che corrisponde a. Custom string pattern #39

    Ogni valore è una stringa di UTF -8, lunga almeno 1 o più di 32768 byte.

    I parametri dell'azione della ricetta.

ConditionExpression struttura

Espressione della condizione definita nel nodo della ricetta di preparazione dei dati di AWS Glue Studio.

Campi
  • ConditionUTFObbligatoria: -8 stringhe, di lunghezza non inferiore a 1 o più di 128 byte, corrispondente a. Custom string pattern #38

    La condizione dell'espressione della condizione.

  • Value— UTF -8 stringhe, di lunghezza non superiore a 1024 byte.

    Il valore dell'espressione della condizione.

  • TargetColumnObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 1024 byte.

    La colonna di destinazione delle espressioni condizionali.