Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Travail visuel API
La tâche visuelle vous API permet de créer des tâches d'intégration de données en utilisant l'objet AWS Glue API à partir d'un JSON objet qui représente la configuration visuelle d'une AWS Glue tâche.
Une liste est fournie à une tâche de CodeGenConfigurationNodes
création ou de mise à jour API afin d'enregistrer une tâche DAG dans AWS Glue Studio pour la tâche créée et de générer le code associé.
Types de données
CodeGenConfigurationNode structure
CodeGenConfigurationNode
Il énumère les différents types de nœuds valides. Une seule et unique de ses variables membres peut être renseignée.
Champs
-
AthenaConnectorSource
– Un objet AthenaConnectorSource.Indique un connecteur à une source de données Amazon Athena.
-
JDBCConnectorSource
– Un objet JDBCConnectorSource.Spécifie un connecteur vers une source JDBC de données.
-
SparkConnectorSource
– Un objet SparkConnectorSource.Indique un connecteur à une source de données Apache Spark.
-
CatalogSource
– Un objet CatalogSource.Spécifie un magasin de données dans le catalogue de AWS Glue données.
-
RedshiftSource
– Un objet RedshiftSource.Indique un stocker de données Amazon Redshift.
-
S3CatalogSource
– Un objet S3 CatalogSource.Spécifie un magasin de données Amazon S3 dans le catalogue de AWS Glue données.
-
S3CsvSource
– Un objet S3 CsvSource.Spécifie un magasin de données à valeur séparée par des commandes (CSV) stocké dans Amazon S3.
-
S3JsonSource
– Un objet S3 JsonSource.Spécifie un magasin de JSON données stocké dans Amazon S3.
-
S3ParquetSource
– Un objet S3 ParquetSource.Indique un stocker de données Apache Parquet stocké dans Amazon S3.
-
RelationalCatalogSource
– Un objet RelationalCatalogSource.Spécifie un magasin de données de catalogue relationnel dans le catalogue de AWS Glue données.
-
DynamoDBCatalogSource
– Un objet ynamoDBCatalogSource D.Spécifie un magasin de données du DBC catalogue Dynamo dans le catalogue de AWS Glue données.
-
JDBCConnectorTarget
– Un objet JDBCConnectorTarget.Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.
-
SparkConnectorTarget
– Un objet SparkConnectorTarget.Indique une cible qui utilise un connecteur Apache Spark.
-
CatalogTarget
– Un objet BasicCatalogTarget.Spécifie une cible qui utilise une table AWS Glue de catalogue de données.
-
RedshiftTarget
– Un objet RedshiftTarget.Indique une cible qui utilise Amazon Redshift.
-
S3CatalogTarget
– Un objet S3 CatalogTarget.Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.
-
S3GlueParquetTarget
– Un objet S3 GlueParquetTarget.Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.
-
S3DirectTarget
– Un objet S3 DirectTarget.Indique une cible de données qui écrit dans Amazon S3.
-
ApplyMapping
– Un objet ApplyMapping.Indique une transformation qui mappe les clés de propriétés de données de la source de données aux clés de propriété de données de la cible de données. Vous pouvez renommer les clés, modifier leur type de données et choisir les clés à supprimer du jeu de données.
-
SelectFields
– Un objet SelectFields.Indique une transformation qui choisit les clés de propriété de données que vous souhaitez conserver.
-
DropFields
– Un objet DropFields.Indique une transformation qui choisit les clés de propriété de données que vous souhaitez supprimer.
-
RenameField
– Un objet RenameField.Indique une transformation qui renomme une clé de propriété de données unique.
-
Spigot
– Un objet Spigot.Indique une transformation qui écrit des échantillons de données dans un compartiment Amazon S3.
-
Join
– Un objet Join.Indique une transformation qui joint deux jeux de données en un jeu de données à l'aide d'une phrase de comparaison sur les clés de propriété de données spécifiées. Vous pouvez utiliser des jointures internes (ou intérieures), externes (ou extérieures), gauche, droite, semi gauche et anti gauche.
-
SplitFields
– Un objet SplitFields.Indique une transformation qui divise les clés de propriété de données en deux
DynamicFrames
. Le résultat est une collection deDynamicFrames
: une avec les clés de propriété de données sélectionnées, et une autre avec les clés de propriété de données restantes. -
SelectFromCollection
– Un objet SelectFromCollection.Indique une transformation qui en choisit une
DynamicFrame
provenant d'une collection deDynamicFrames
. Le résultat est leDynamicFrame
sélectionné -
FillMissingValues
– Un objet FillMissingValues.Indique une transformation qui localise les registres dans le jeu de données dont les valeurs sont manquantes et ajoute un nouveau champ avec une valeur déterminée par imputation. Le jeu de données source est utilisé pour entraîner le modèle de machine learning (ML) qui détermine la valeur manquante.
-
Filter
– Un objet Filtre.Indique une transformation qui divise un jeu de données en deux, en fonction d'une condition de filtre.
-
CustomCode
– Un objet CustomCode.Indique une transformation qui utilise le code personnalisé que vous fournissez pour effectuer la transformation des données. La sortie est une collection de DynamicFrames.
-
SparkSQL
– Un objet Étincelle SQL.Spécifie une transformation dans laquelle vous entrez une SQL requête à l'aide de SQL la syntaxe Spark pour transformer les données. Le résultat est un
DynamicFrame
unique. -
DirectKinesisSource
– Un objet DirectKinesisSource.Indique une source de données Amazon Kinesis directe.
-
DirectKafkaSource
– Un objet DirectKafkaSource.Indique un stocker de données Apache Kafka.
-
CatalogKinesisSource
– Un objet CatalogKinesisSource.Spécifie une source de données Kinesis dans le catalogue de AWS Glue données.
-
CatalogKafkaSource
– Un objet CatalogKafkaSource.Indique un stocker de données Apache Kafka dans le catalogue de données.
-
DropNullFields
– Un objet DropNullFields.Indique une transformation qui supprime les colonnes du jeu de données si toutes les valeurs de la colonne sont « nulles ». Par défaut, AWS Glue Studio reconnaît les objets nuls, mais certaines valeurs telles que les chaînes vides, les chaînes « nulles », les entiers -1 ou d'autres espaces réservés tels que les zéros ne sont pas automatiquement reconnues comme nulles.
-
Merge
– Un objet Fusionner.Indique une transformation qui fusionne une
DynamicFrame
avec uneDynamicFrame
intermédiaire basée sur les clés primaires spécifiées pour identifier les registres. Les registres en double (registres avec les mêmes clés primaires) ne sont pas dédupliqués. -
Union
– Un objet Union.Indique une transformation qui combine les lignes de deux jeux de données ou plus en un seul résultat.
-
PIIDetection
– Un objet PIIDetection.Spécifie une transformation qui identifie, supprime ou masque les PII données.
-
Aggregate
– Un objet Regrouper.Indique une transformation qui regroupe les lignes par champs choisis et calcule la valeur agrégée par fonction spécifiée.
-
DropDuplicates
– Un objet DropDuplicates.Indique une transformation qui supprime des lignes de données répétitives d'un jeu de données.
-
GovernedCatalogTarget
– Un objet GovernedCatalogTarget.Indique une cible de données qui écrit dans un catalogue gouverné.
-
GovernedCatalogSource
– Un objet GovernedCatalogSource.Indique une source de données dans un catalogue de données gouverné.
-
MicrosoftSQLServerCatalogSource
– Un objet M icrosoftSQLServer CatalogSource.Spécifie une source de données Microsoft SQL Server dans le catalogue de AWS Glue données.
-
MySQLCatalogSource
– Un objet Ma ySQLCatalog source.Spécifie une source SQL de données My dans le catalogue de AWS Glue données.
-
OracleSQLCatalogSource
– Un objet racleSQLCatalogSource O.Spécifie une source de données Oracle dans le catalogue de AWS Glue données.
-
PostgreSQLCatalogSource
– Un objet ostgreSQLCatalogSource P.Spécifie une source de SQL données Postgres dans le catalogue de AWS Glue données.
-
MicrosoftSQLServerCatalogTarget
– Un objet M icrosoftSQLServer CatalogTarget.Spécifie une cible qui utilise MicrosoftSQL.
-
MySQLCatalogTarget
– Un objet Ma ySQLCatalog cible.Spécifie une cible qui utilise MySQL.
-
OracleSQLCatalogTarget
– Un objet O racleSQLCatalog Target.Spécifie une cible qui utilise OracleSQL.
-
PostgreSQLCatalogTarget
– Un objet ostgreSQLCatalogCible P.Spécifie une cible qui utilise PostgresSQL.
-
DynamicTransform
– Un objet DynamicTransform.Spécifie une transformation visuelle personnalisée créée par un utilisateur.
-
EvaluateDataQuality
– Un objet EvaluateDataQuality.Spécifie vos critères d'évaluation de la qualité des données.
-
S3CatalogHudiSource
– Un objet S3 CatalogHudiSource.Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.
-
CatalogHudiSource
– Un objet CatalogHudiSource.Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données.
-
S3HudiSource
– Un objet S3 HudiSource.Spécifie une source de données Hudi stockée dans. Amazon S3
-
S3HudiCatalogTarget
– Un objet S3 HudiCatalogTarget.Spécifie une cible qui écrit dans une source de données Hudi du catalogue de AWS Glue données.
-
S3HudiDirectTarget
– Un objet S3 HudiDirectTarget.Spécifie une cible qui écrit dans une source de données Hudi en Amazon S3.
-
S3CatalogDeltaSource
– Un objet S3 CatalogDeltaSource.Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.
-
CatalogDeltaSource
– Un objet CatalogDeltaSource.Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données.
-
S3DeltaSource
– Un objet S3 DeltaSource.Spécifie une source de données Delta Lake stockée dans Amazon S3.
-
S3DeltaCatalogTarget
– Un objet S3 DeltaCatalogTarget.Spécifie une cible qui écrit dans une source de données Delta Lake dans le catalogue de AWS Glue données.
-
S3DeltaDirectTarget
– Un objet S3 DeltaDirectTarget.Spécifie une cible qui écrit dans une source de données de Delta Lake dans Amazon S3.
-
AmazonRedshiftSource
– Un objet AmazonRedshiftSource.Indique une cible qui écrit dans une source de données dans Amazon Redshift.
-
AmazonRedshiftTarget
– Un objet AmazonRedshiftTarget.Indique une cible qui écrit dans une cible de données dans Amazon Redshift.
-
EvaluateDataQualityMultiFrame
– Un objet EvaluateDataQualityMultiFrame.Spécifie vos critères d'évaluation de la qualité des données. Autorise plusieurs données d'entrée et renvoie une collection de cadres dynamiques.
-
Recipe
– Un objet Recipe.Spécifie un nœud de AWS Glue DataBrew recette.
-
SnowflakeSource
– Un objet SnowflakeSource.Indique une source de données Snowflake.
-
SnowflakeTarget
– Un objet SnowflakeTarget.Indique une cible qui écrit dans une source de données Snowflake.
-
ConnectorDataSource
– Un objet ConnectorDataSource.Spécifie une source générée avec des options de connexion standard.
-
ConnectorDataTarget
– Un objet ConnectorDataTarget.Spécifie une cible générée avec des options de connexion standard.
JDBCConnectorOptionsstructure
Options de connexion supplémentaires pour le connecteur.
Champs
-
FilterPredicate
— Chaîne UTF -8, correspondant auCustom string pattern #59.Clause de condition supplémentaire pour filtrer les données à partir de la source. Par exemple :
BillingCity='Mountain View'
Lorsque vous utilisez une requête au lieu d'un nom de tableau, vous devez vérifier que la requête fonctionne avec le
filterPredicate
spécifié. -
PartitionColumn
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom d'une colonne entière utilisée pour le partitionnement. Cette option fonctionne uniquement lorsqu'elle est incluse dans
lowerBound
,upperBound
etnumPartitions
. Cette option fonctionne de la même manière que dans le SQL JDBC lecteur Spark. -
LowerBound
– Nombre (long), pas plus qu'Aucun.La valeur minimale de
partitionColumn
qui est utilisée pour décider de la progression de la partition. -
UpperBound
– Nombre (long), pas plus qu'Aucun.La valeur maximale de
partitionColumn
qui est utilisée pour décider de la progression de la partition. -
NumPartitions
– Nombre (long), pas plus qu'Aucun.Nombre de partitions. Cette valeur, ainsi que
lowerBound
(inclusive) etupperBound
(exclusive) forment les progressions de partition pour les expressions de clauseWHERE
générées qui sont utilisées pour diviser le fichierpartitionColumn
. -
JobBookmarkKeys
— Un tableau de UTF -8 chaînes.Le nom des clés de marque-page de tâches sur lesquelles effectuer le tri.
-
JobBookmarkKeysSortOrder
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique un ordre de tri croissant ou décroissant.
-
DataTypeMapping
– Tableau de mappage de paires valeur-clé.Chaque clé est une chaîne UTF -8 (valeurs valides :
ARRAY
| |BIGINT
|BINARY
|BIT
|BLOB
|BOOLEAN
|CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
|NULL
|NUMERIC
| |NVARCHAR
|OTHER
|REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
|SQLXML
|STRUCT
|TIME
|TIME_WITH_TIMEZONE
|TIMESTAMP
TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
).Chaque valeur est une chaîne UTF -8 (valeurs valides :
DATE
| |STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
|BYTE
SHORT
|DOUBLE
).Mappage de type de données personnalisé qui crée un mappage entre un type de JDBC données et un type de AWS Glue données. Par exemple, l'option
"dataTypeMapping":{"FLOAT":"STRING"}
mappe les champs de JDBC données deString
type JavaFLOAT
en appelant laResultSet.getString()
méthode du pilote et l'utilise pour créer l' AWS Glue enregistrement. L'objet estResultSet
implémenté par chaque pilote, donc le comportement est spécifique au pilote que vous utilisez. Reportez-vous à la documentation destinée à votre JDBC chauffeur pour comprendre comment il effectue les conversions.
StreamingDataPreviewOptions structure
Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.
Champs
-
PollingTime
: nombre (long), au moins égal à 10.Temps d'interrogation en millisecondes.
-
RecordPollingLimit
: nombre (long), au moins égal à 1.Limite du nombre de registres interrogés.
AthenaConnectorSource structure
Indique un connecteur à une source de données Amazon Athena.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la connexion associée au connecteur.
-
ConnectorName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Type de connexion, tel que marketplace.athena ou custom.athena, désignant une connexion à un stocker de données Amazon Athena.
-
ConnectionTable
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la source de données.
-
SchemaName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom du groupe de journaux CloudWatch à partir duquel lire les données. Par exemple,
/aws-glue/jobs/output
. -
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Athena personnalisée.
JDBCConnectorSourcestructure
Spécifie un connecteur vers une source JDBC de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la connexion associée au connecteur.
-
ConnectorName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Type de connexion, tel que marketplace.jdbc ou custom.jdbc, désignant une connexion à un magasin de données. JDBC
-
AdditionalOptions
– Un objet JDBCConnectorOptions.Options de connexion supplémentaires pour le connecteur.
-
ConnectionTable
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la source de données.
-
Query
— Chaîne UTF -8, correspondant auCustom string pattern #60.La table ou la SQL requête à partir de laquelle obtenir les données. Vous pouvez préciser
ConnectionTable
ouquery
, mais pas les deux. -
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour la JDBC source personnalisée.
SparkConnectorSource structure
Indique un connecteur à une source de données Apache Spark.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la connexion associée au connecteur.
-
ConnectorName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Type de connexion, tel que marketplace.spark ou custom.spark, désignant une connexion à un stocker de données Apache Spark.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Options de connexion supplémentaires pour le connecteur.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Spark personnalisée.
CatalogSource structure
Spécifie un magasin de données dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
M Structure ySQLCatalog de la source
Spécifie une source SQL de données My dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
P Structure ostgreSQLCatalog de la source
Spécifie une source de SQL données Postgres dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
O Structure racleSQLCatalog de la source
Spécifie une source de données Oracle dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
icrosoftSQLServerCatalogSource Structure en M
Spécifie une source de données Microsoft SQL Server dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
CatalogKinesisSource structure
Spécifie une source de données Kinesis dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
WindowSize
– Nombre (entier), pas plus qu'Aucun.Durée de traitement de chaque micro lot.
-
DetectSchema
– Booléen.Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
StreamingOptions
– Un objet KinesisStreamingSourceOptions.Options supplémentaires pour la source de données en streaming Kinesis.
-
DataPreviewOptions
– Un objet StreamingDataPreviewOptions.Options supplémentaires pour la prévisualisation des données.
DirectKinesisSource structure
Indique une source de données Amazon Kinesis directe.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
WindowSize
– Nombre (entier), pas plus qu'Aucun.Durée de traitement de chaque micro lot.
-
DetectSchema
– Booléen.Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.
-
StreamingOptions
– Un objet KinesisStreamingSourceOptions.Options supplémentaires pour la source de données en streaming Kinesis.
-
DataPreviewOptions
– Un objet StreamingDataPreviewOptions.Options supplémentaires pour la prévisualisation des données.
KinesisStreamingSourceOptions structure
Options supplémentaires pour la source de données Amazon Kinesis streaming.
Champs
-
EndpointUrl
— Chaîne UTF -8, correspondant auCustom string pattern #59.Celui du URL point de terminaison Kinesis.
-
StreamName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom du flux de données Kinesis.
-
Classification
— Chaîne UTF -8, correspondant auCustom string pattern #59.Une classification facultative.
-
Delimiter
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique le caractère délimiteur.
-
StartingPosition
— Chaîne UTF -8 (valeurs valides :latest="LATEST"
| |trim_horizon="TRIM_HORIZON"
earliest="EARLIEST"
|timestamp="TIMESTAMP"
).La position de départ dans le flux de données Kinesis à partir duquel lire les données. Les valeurs possibles sont
"latest"
,"trim_horizon"
"earliest"
, ou une chaîne d'horodatage au UTC format du modèleyyyy-mm-ddTHH:MM:SSZ
(oùZ
représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00-04:00 «). La valeur par défaut est"latest"
.Remarque : L'utilisation d'une valeur qui est une chaîne d'horodatage au UTC format « startingPosition » n'est prise en charge que pour AWS Glue la version 4.0 ou ultérieure.
-
MaxFetchTimeInMs
– Nombre (long), pas plus qu'Aucun.Durée maximale pendant laquelle l'exécuteur de tâches lit les enregistrements du lot en cours à partir du flux de données Kinesis, spécifiée en millisecondes (ms). Plusieurs
GetRecords
API appels peuvent être effectués pendant cette période. La valeur par défaut est1000
. -
MaxFetchRecordsPerShard
– Nombre (long), pas plus qu'Aucun.Le nombre maximum d'enregistrements à récupérer par partition dans le flux de données Kinesis par microbatch. Remarque : le client peut dépasser cette limite si la tâche de streaming a déjà lu des enregistrements supplémentaires provenant de Kinesis (lors du même appel get-records). Si elle
MaxFetchRecordsPerShard
doit être stricte, elle doit être un multiple deMaxRecordPerRead
. La valeur par défaut est100000
. -
MaxRecordPerRead
– Nombre (long), pas plus qu'Aucun.Nombre maximal d'enregistrements à extraire du flux de données Kinesis dans chaque opération getRecords . La valeur par défaut est
10000
. -
AddIdleTimeBetweenReads
– Booléen.Ajoute un délai entre deux getRecords opérations consécutives. La valeur par défaut est
"False"
. Cette option n’est configurable que pour Glue version 2.0 et ultérieure. -
IdleTimeBetweenReadsInMs
– Nombre (long), pas plus qu'Aucun.Le délai minimum entre deux getRecords opérations consécutives, spécifié en ms. La valeur par défaut est
1000
. Cette option n’est configurable que pour Glue version 2.0 et ultérieure. -
DescribeShardInterval
– Nombre (long), pas plus qu'Aucun.Intervalle de temps minimum entre deux ListShards API appels avant que votre script envisage de repartager. La valeur par défaut est
1s
. -
NumRetries
– Nombre (entier), pas plus qu'Aucun.Nombre maximal de tentatives pour les demandes Kinesis Data API Streams. La valeur par défaut est
3
. -
RetryIntervalMs
– Nombre (long), pas plus qu'Aucun.Période de latence (spécifiée en ms) avant de réessayer l'appel Kinesis Data Streams. API La valeur par défaut est
1000
. -
MaxRetryIntervalMs
– Nombre (long), pas plus qu'Aucun.Durée maximale (spécifiée en ms) entre deux tentatives d'un appel Kinesis Data Streams. API La valeur par défaut est
10000
. -
AvoidEmptyBatches
– Booléen.Évite de créer une tâche de micro-lot vide en vérifiant les données non lues dans le flux de données Kinesis avant le démarrage du lot. La valeur par défaut est
"False"
. -
StreamArn
— Chaîne UTF -8, correspondant auCustom string pattern #59.Nom de ressource Amazon (ARN) du flux de données Kinesis.
-
RoleArn
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de ressource Amazon (ARN) du rôle à assumer à l'aide du AWS Security Token Service (AWSSTS). Ce rôle doit disposer des autorisations nécessaires pour décrire ou lire des registres pour le flux de données Kinesis. Vous devez utiliser ce paramètre lorsque vous accédez à un flux de données dans un autre compte. Utilisez conjointement avec
"awsSTSSessionName"
. -
RoleSessionName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Identifiant de la session assumant le rôle utilisant AWSSTS. Vous devez utiliser ce paramètre lorsque vous accédez à un flux de données dans un autre compte. Utilisez conjointement avec
"awsSTSRoleARN"
. -
AddRecordTimestamp
— Chaîne UTF -8, correspondant auCustom string pattern #59.Lorsque cette option est définie sur « true », la sortie de données contient une colonne supplémentaire nommée « __src_timestamp » qui indique l'heure à laquelle l'enregistrement correspondant est reçu par le flux. La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue la version 4.0 ou ultérieure.
-
EmitConsumerLagMetrics
— Chaîne UTF -8, correspondant auCustom string pattern #59.Lorsque cette option est définie sur « true », pour chaque lot, elle émet les métriques correspondant à la durée comprise entre le plus ancien enregistrement reçu par le flux et l'heure AWS Glue à laquelle il arrive CloudWatch. Le nom de la métrique est « glue.driver.streaming ». maxConsumerLagInMs». La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue version 4.0 ou ultérieure.
-
StartingTimestamp
— UTF -8 chaînes.L'horodatage de l'enregistrement dans le flux de données Kinesis à partir duquel les données doivent être lues. Les valeurs possibles sont une chaîne d'horodatage au UTC format du modèle
yyyy-mm-ddTHH:MM:SSZ
(où Z représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00 + 08:00 «).
CatalogKafkaSource structure
Indique un stocker de données Apache Kafka dans le catalogue de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
WindowSize
– Nombre (entier), pas plus qu'Aucun.Durée de traitement de chaque micro lot.
-
DetectSchema
– Booléen.Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
StreamingOptions
– Un objet KafkaStreamingSourceOptions.Indique les options de streaming.
-
DataPreviewOptions
– Un objet StreamingDataPreviewOptions.Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.
DirectKafkaSource structure
Indique un stocker de données Apache Kafka.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
StreamingOptions
– Un objet KafkaStreamingSourceOptions.Indique les options de streaming.
-
WindowSize
– Nombre (entier), pas plus qu'Aucun.Durée de traitement de chaque micro lot.
-
DetectSchema
– Booléen.Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.
-
DataPreviewOptions
– Un objet StreamingDataPreviewOptions.Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.
KafkaStreamingSourceOptions structure
Options supplémentaires pour streaming.
Champs
-
BootstrapServers
— Chaîne UTF -8, correspondant auCustom string pattern #59.Une liste de serveurs bootstrapURLs, par exemple, comme
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
. Cette option doit être spécifiée dans l'APIappel ou définie dans les métadonnées de la table dans le catalogue de données. -
SecurityProtocol
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le protocole utilisé pour communiquer avec les agents. Les valeurs possibles sont
"SSL"
ou"PLAINTEXT"
. -
ConnectionName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Nom de la connexion.
-
TopicName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de rubrique tel que spécifié dans Apache Kafka. Vous devez Indiquer au moins un des éléments suivants :
"topicName"
,"assign"
ou"subscribePattern"
. -
Assign
— Chaîne UTF -8, correspondant auCustom string pattern #59.Les
TopicPartitions
spécifiques à consommer. Vous devez Indiquer au moins un des éléments suivants :"topicName"
,"assign"
ou"subscribePattern"
. -
SubscribePattern
— Chaîne UTF -8, correspondant auCustom string pattern #59.Une chaîne d'expression rationnelle Java qui identifie la liste de rubriques à laquelle vous souhaitez vous abonner. Vous devez Indiquer au moins un des éléments suivants :
"topicName"
,"assign"
ou"subscribePattern"
. -
Classification
— Chaîne UTF -8, correspondant auCustom string pattern #59.Une classification facultative.
-
Delimiter
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique le caractère délimiteur.
-
StartingOffsets
— Chaîne UTF -8, correspondant auCustom string pattern #59.La position de départ dans la rubrique Kafka à partir de laquelle lire les données. Les valeurs possibles sont
"earliest"
ou"latest"
. La valeur par défaut est"latest"
. -
EndingOffsets
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le point de fin lorsqu'une requête par lots est terminée. Les valeurs possibles sont soit une chaîne,
"latest"
soit une JSON chaîne spécifiant un décalage de fin pour chacune d'entre ellesTopicPartition
. -
PollTimeoutMs
– Nombre (long), pas plus qu'Aucun.Le délai d'attente en millisecondes pour interroger les données de Kafka dans les exécuteurs de tâches Spark. La valeur par défaut est
512
. -
NumRetries
– Nombre (entier), pas plus qu'Aucun.Le nombre de nouvelles tentatives avant de ne pas récupérer les décalages Kafka. La valeur par défaut est
3
. -
RetryIntervalMs
– Nombre (long), pas plus qu'Aucun.Temps d'attente en millisecondes avant d'essayer de récupérer les décalages Kafka. La valeur par défaut est
10
. -
MaxOffsetsPerTrigger
– Nombre (long), pas plus qu'Aucun.La limite de taux sur le nombre maximal de décalages qui sont traités par intervalle de déclenchement. Le nombre total spécifié de décalages est réparti proportionnellement entre les
topicPartitions
des différents volumes. La valeur par défaut est null, ce qui signifie que le consommateur lit tous les décalages jusqu'au dernier décalage connu. -
MinPartitions
– Nombre (entier), pas plus qu'Aucun.Le nombre minimum de partitions à lire à partir de Kafka. La valeur par défaut est nulle, ce qui signifie que le nombre de partitions Spark est égal au nombre de partitions Kafka.
-
IncludeHeaders
– Booléen.Indique s'il faut inclure les en-têtes Kafka. Lorsque l'option est définie sur « true » (vrai), la sortie de données contiendra une colonne supplémentaire nommée « glue_streaming_kafka_headers » avec le type
Array[Struct(key: String, value: String)]
. La valeur définie par défaut est « false ». Cette option n'est disponible que dans AWS Glue la version 3.0 ou ultérieure. -
AddRecordTimestamp
— Chaîne UTF -8, correspondant auCustom string pattern #59.Lorsque cette option est définie sur « true », la sortie de données contient une colonne supplémentaire nommée « __src_timestamp » qui indique l'heure à laquelle l'enregistrement correspondant est reçu par la rubrique. La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue la version 4.0 ou ultérieure.
-
EmitConsumerLagMetrics
— Chaîne UTF -8, correspondant auCustom string pattern #59.Lorsque cette option est définie sur « vrai », pour chaque lot, elle émet les métriques correspondant à la durée comprise entre le plus ancien enregistrement reçu par le sujet et l'heure AWS Glue à laquelle il arrive CloudWatch. Le nom de la métrique est « glue.driver.streaming ». maxConsumerLagInMs». La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue version 4.0 ou ultérieure.
-
StartingTimestamp
— UTF -8 chaînes.L'horodatage de l'enregistrement dans la rubrique Kafka à partir duquel les données doivent être lues. Les valeurs possibles sont une chaîne d'horodatage au UTC format du modèle
yyyy-mm-ddTHH:MM:SSZ
(où Z représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00 + 08:00 «).Seul
StartingTimestamp
ouStartingOffsets
doit être défini.
RedshiftSource structure
Indique un stocker de données Amazon Redshift.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom du stocker de données Amazon Redshift.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Table de base de données à lire.
-
RedshiftTmpDir
— Chaîne UTF -8, correspondant auCustom string pattern #59.Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.
-
TmpDirIAMRole
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le IAM rôle doté d'autorisations.
AmazonRedshiftSource structure
Indique une source Amazon Redshift.
Champs
-
Name
— Chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la source Amazon Redshift.
-
Data
– Un objet AmazonRedshiftNodeData.Indique les données du nœud source Amazon Reshift.
AmazonRedshiftNodeData structure
Indique un nœud Amazon Redshift.
Champs
-
AccessType
— Chaîne UTF -8, correspondant auCustom string pattern #58.Le type d'accès pour la connexion Redshift. Il peut s'agir d'une connexion directe ou de connexions au catalogue.
-
SourceType
— Chaîne UTF -8, correspondant auCustom string pattern #58.Le type de source pour spécifier si une table spécifique est la source ou une requête personnalisée.
-
Connection
– Un objet Option.La AWS Glue connexion au cluster Redshift.
-
Schema
– Un objet Option.Le nom du schéma Redshift lorsque vous travaillez avec une connexion directe.
-
Table
– Un objet Option.Le nom de la table Redshift lorsque vous travaillez avec une connexion directe.
-
CatalogDatabase
– Un objet Option.Nom de la base de AWS Glue données du catalogue de données lorsque vous travaillez avec un catalogue de données.
-
CatalogTable
– Un objet Option.Le nom de la table du catalogue de AWS Glue données lorsque vous travaillez avec un catalogue de données.
-
CatalogRedshiftSchema
— UTF -8 chaînes.Le nom du schéma Redshift lorsque vous travaillez avec un catalogue de données.
-
CatalogRedshiftTable
— UTF -8 chaînes.Table de base de données à lire.
-
TempDir
— Chaîne UTF -8, correspondant auCustom string pattern #59.Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.
-
IamRole
– Un objet Option.Facultatif. Le nom de rôle utilisé lors de la connexion à S3. Le IAM rôle sera remplacé par défaut par le rôle correspondant à la tâche lorsque ce champ est laissé vide.
-
AdvancedOptions
– Un tableau d'objets AmazonRedshiftAdvancedOption.Les valeurs facultatives lors de la connexion au cluster Redshift.
-
SampleQuery
— UTF -8 chaînes.SQLUtilisé pour récupérer les données d'une source Redshift lorsqu' SourceTypeil s'agit d'une « requête ».
-
PreAction
— UTF -8 chaînes.Le SQL fichier utilisé avant l'exécution d'un MERGE ou APPEND avec upsert.
-
PostAction
— UTF -8 chaînes.Le SQL fichier utilisé avant l'exécution d'un MERGE ou APPEND avec upsert.
-
Action
— UTF -8 chaînes.Indique comment l'écriture dans un cluster Redshift se fera.
-
TablePrefix
— Chaîne UTF -8, correspondant auCustom string pattern #58.Indique le préfixe d'une table.
-
Upsert
– Booléen.L'action utilisée sur Redshift disparaît lorsque vous effectuez un. APPEND
-
MergeAction
— Chaîne UTF -8, correspondant auCustom string pattern #58.Action utilisée pour déterminer la manière dont un élément d'un MERGE récepteur Redshift sera géré.
-
MergeWhenMatched
— Chaîne UTF -8, correspondant auCustom string pattern #58.Action utilisée pour déterminer comment sera géré un enregistrement MERGE dans un récepteur Redshift lorsqu'un enregistrement existant correspond à un nouvel enregistrement.
-
MergeWhenNotMatched
— Chaîne UTF -8, correspondant auCustom string pattern #58.Action utilisée pour déterminer comment sera géré un enregistrement MERGE dans un récepteur Redshift lorsqu'un enregistrement existant ne correspond pas à un nouvel enregistrement.
-
MergeClause
— UTF -8 chaînes.SQLUtilisé dans une fusion personnalisée pour traiter les enregistrements correspondants.
-
CrawlerConnection
— UTF -8 chaînes.Indique le nom de la connexion associée à la table de catalogue utilisée.
-
TableSchema
– Un tableau d'objets Option.Le tableau de sortie du schéma pour un nœud donné.
-
StagingTable
— UTF -8 chaînes.Le nom de la table intermédiaire temporaire qui est utilisée lors d'une opération MERGE ou APPEND avec upsert.
-
SelectedColumns
– Un tableau d'objets Option.La liste des noms de colonnes utilisés pour déterminer un enregistrement correspondant lors d'une opération MERGE ou APPEND avec upsert.
AmazonRedshiftAdvancedOption structure
Indique une valeur facultative lors de la connexion au cluster Redshift.
Champs
-
Key
— UTF -8 chaînes.La clé de l'option de connexion supplémentaire.
-
Value
— UTF -8 chaînes.La valeur de l'option de connexion supplémentaire.
Structure de l'option
Indique une valeur d'option.
Champs
-
Value
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique la valeur de l'option.
-
Label
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique l'étiquette de l'option.
-
Description
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique la description de l'option.
CatalogSource Structure S3
Spécifie un magasin de données Amazon S3 dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Table de base de données à lire.
-
PartitionPredicate
— Chaîne UTF -8, correspondant auCustom string pattern #59.Les partitions satisfaisant à ce prédicat sont supprimées. Les fichiers qui se situent dans la période de conservation pour ces partitions ne sont pas supprimés. Valeur définie sur
""
– vide par défaut. -
AdditionalOptions
– Un objet S3 SourceAdditionalOptions.Indique des options de connexion supplémentaires.
SourceAdditionalOptions Structure S3
Indique des options de connexion supplémentaires pour le stocker de données Amazon S3.
Champs
-
BoundedSize
– Nombre (long).Définit la limite supérieure de la dimension cible du jeu de données en octets à traiter.
-
BoundedFiles
– Nombre (long).Définit la limite supérieure du nombre cible de fichiers à traiter.
CsvSource Structure S3
Spécifie un magasin de données à valeur séparée par des commandes (CSV) stocké dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.Une liste de chemins Amazon S3 à lire.
-
CompressionType
— Chaîne UTF -8 (valeurs valides :gzip="GZIP"
|bzip2="BZIP2"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
Exclusions
— Un tableau de UTF -8 chaînes.Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.
-
GroupSize
— Chaîne UTF -8, correspondant auCustom string pattern #59.La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée,
"groupFiles"
doit être défini sur"inPartition"
pour que cela prenne effet. -
GroupFiles
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur
"none"
. -
Recurse
– Booléen.Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.
-
MaxBand
– Nombre (entier), pas plus qu'Aucun.Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.
-
MaxFilesInBand
– Nombre (entier), pas plus qu'Aucun.Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.
-
AdditionalOptions
– Un objet S3 DirectSourceAdditionalOptions.Indique des options de connexion supplémentaires.
-
Separator
— Obligatoire : chaîne UTF -8 (valeurs valides :comma="COMMA"
|ctrla="CTRLA"
| |pipe="PIPE"
semicolon="SEMICOLON"
|tab="TAB"
).Indique le caractère délimiteur. La valeur par défaut est une virgule : « , », mais tout autre caractère peut être spécifié.
-
Escaper
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique le caractère à utiliser pour l'échappement. Cette option est utilisée uniquement lors de la lecture de CSV fichiers. La valeur par défaut est
none
. Si cette option est activée, le caractère suivant est immédiatement utilisé tel quel, sauf pour un petit ensemble d'échappements connus (\n
,\r
,\t
et\0
). -
QuoteChar
— Obligatoire : chaîne UTF -8 (valeurs valides :quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
).Indique le caractère à utiliser pour les guillemets. La valeur par défaut est les guillemets doubles :
'"'
. Définissez ce champ sur-1
pour désactiver entièrement les guillemets. -
Multiline
– Booléen.Une valeur booléenne qui indique si un même registre peut couvrir plusieurs lignes. Cela peut se produire lorsqu'un champ contient un caractère de nouvelle ligne. Vous devez définir cette option sur « VRAI » si aucun registre ne s'étend sur plusieurs lignes. La valeur par défaut est
False
, qui permet un fractionnement en fichiers plus intense pendant l'analyse. -
WithHeader
– Booléen.Une valeur booléenne qui indique s'il convient de traiter la première ligne comme un en-tête. La valeur par défaut est
False
. -
WriteHeader
– Booléen.Une valeur booléenne qui indique s'il faut écrire l'en-tête dans la sortie. La valeur par défaut est
True
. -
SkipFirst
– Booléen.Une valeur booléenne qui indique s'il faut ignorer la première ligne de données. La valeur par défaut est
False
. -
OptimizePerformance
– Booléen.Valeur booléenne qui indique s'il faut utiliser le SIMD CSV lecteur avancé avec les formats de mémoire en colonnes basés sur Apache Arrow. Disponible uniquement dans AWS Glue la version 3.0.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour la CSV source S3.
irectJDBCSource Structure en D
Spécifie la connexion directe à la JDBC source.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la connexion JDBC source.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La base de données de la connexion JDBC source.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le tableau de la connexion JDBC source.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de connexion de la JDBC source.
-
ConnectionType
— Obligatoire : chaîne UTF -8 (valeurs valides :sqlserver
|mysql
| |oracle
postgresql
|redshift
).Type de connexion de la JDBC source.
-
RedshiftTmpDir
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le répertoire temporaire de la source JDBC Redshift.
DirectSourceAdditionalOptions Structure S3
Indique des options de connexion supplémentaires pour le stocker de données Amazon S3.
Champs
-
BoundedSize
– Nombre (long).Définit la limite supérieure de la dimension cible du jeu de données en octets à traiter.
-
BoundedFiles
– Nombre (long).Définit la limite supérieure du nombre cible de fichiers à traiter.
-
EnableSamplePath
– Booléen.Définit l'option d'activation d'un exemple de chemin.
-
SamplePath
— Chaîne UTF -8, correspondant auCustom string pattern #59.Si cette option est activée, elle indique l'exemple de chemin.
JsonSource Structure S3
Spécifie un magasin de JSON données stocké dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.Une liste de chemins Amazon S3 à lire.
-
CompressionType
— Chaîne UTF -8 (valeurs valides :gzip="GZIP"
|bzip2="BZIP2"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
Exclusions
— Un tableau de UTF -8 chaînes.Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.
-
GroupSize
— Chaîne UTF -8, correspondant auCustom string pattern #59.La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée,
"groupFiles"
doit être défini sur"inPartition"
pour que cela prenne effet. -
GroupFiles
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur
"none"
. -
Recurse
– Booléen.Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.
-
MaxBand
– Nombre (entier), pas plus qu'Aucun.Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.
-
MaxFilesInBand
– Nombre (entier), pas plus qu'Aucun.Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.
-
AdditionalOptions
– Un objet S3 DirectSourceAdditionalOptions.Indique des options de connexion supplémentaires.
-
JsonPath
— Chaîne UTF -8, correspondant auCustom string pattern #59.JsonPath Chaîne définissant les JSON données.
-
Multiline
– Booléen.Une valeur booléenne qui indique si un même registre peut couvrir plusieurs lignes. Cela peut se produire lorsqu'un champ contient un caractère de nouvelle ligne. Vous devez définir cette option sur « VRAI » si aucun registre ne s'étend sur plusieurs lignes. La valeur par défaut est
False
, qui permet un fractionnement en fichiers plus intense pendant l'analyse. -
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour la JSON source S3.
ParquetSource Structure S3
Indique un stocker de données Apache Parquet stocké dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.Une liste de chemins Amazon S3 à lire.
-
CompressionType
— Chaîne UTF -8 (valeurs valides :snappy="SNAPPY"
| |lzo="LZO"
|gzip="GZIP"
uncompressed="UNCOMPRESSED"
|none="NONE"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
Exclusions
— Un tableau de UTF -8 chaînes.Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.
-
GroupSize
— Chaîne UTF -8, correspondant auCustom string pattern #59.La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée,
"groupFiles"
doit être défini sur"inPartition"
pour que cela prenne effet. -
GroupFiles
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur
"none"
. -
Recurse
– Booléen.Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.
-
MaxBand
– Nombre (entier), pas plus qu'Aucun.Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.
-
MaxFilesInBand
– Nombre (entier), pas plus qu'Aucun.Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.
-
AdditionalOptions
– Un objet S3 DirectSourceAdditionalOptions.Indique des options de connexion supplémentaires.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source S3 Parquet.
DeltaSource Structure S3
Spécifie une source de données Delta Lake stockée dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la source de Delta Lake.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.Une liste de chemins Amazon S3 à lire.
-
AdditionalDeltaOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
AdditionalOptions
– Un objet S3 DirectSourceAdditionalOptions.Indique les options supplémentaires du connecteur.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Delta Lake.
CatalogDeltaSource Structure S3
Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la source de données Delta Lake.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
AdditionalDeltaOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Delta Lake.
CatalogDeltaSource structure
Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la source de données Delta Lake.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
AdditionalDeltaOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Delta Lake.
HudiSource Structure S3
Spécifie une source de données Hudi stockée dans. Amazon S3
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source Hudi.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.Une liste de chemins Amazon S3 à lire.
-
AdditionalHudiOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
AdditionalOptions
– Un objet S3 DirectSourceAdditionalOptions.Indique les options supplémentaires du connecteur.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Hudi.
CatalogHudiSource Structure S3
Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données. La source de données Hudi doit être stockée dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données Hudi.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
AdditionalHudiOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Hudi.
CatalogHudiSource structure
Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données Hudi.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
-
AdditionalHudiOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la source Hudi.
D Structure ynamoDBCatalog de la source
Spécifie une source de données DynamoDB dans AWS Glue le catalogue de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
RelationalCatalogSource structure
Indique une source de données de base de données relationnelle dans le catalogue de données AWS Glue .
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de la source de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la base de données à partir de laquelle lire les données.
JDBCConnectorTargetstructure
Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la connexion associée au connecteur.
-
ConnectionTable
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table dans la cible de données.
-
ConnectorName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom d'un connecteur qui sera utilisé.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Type de connexion, tel que marketplace.jdbc ou custom.jdbc, désignant une connexion à une cible de données. JDBC
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Options de connexion supplémentaires pour le connecteur.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour la JDBC cible.
SparkConnectorTarget structure
Indique une cible qui utilise un connecteur Apache Spark.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
ConnectionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom d'une connexion pour un connecteur Apache Spark.
-
ConnectorName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom d'un connecteur Apache Spark.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Type de connexion, tel que marketplace.spark ou custom.spark, désignant une connexion à un stocker de données Apache Spark.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Options de connexion supplémentaires pour le connecteur.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la cible Spark personnalisée.
BasicCatalogTarget structure
Spécifie une cible qui utilise une table AWS Glue de catalogue de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de votre cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Les clés de partition utilisées pour distribuer les données sur plusieurs partitions ou partitions en fonction d'une clé ou d'un ensemble de clés spécifique.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La base de données où se trouve la table que vous souhaitez utiliser comme cible. Cette base de données doit déjà exister dans le catalogue de données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La table qui définit le schéma de vos données de sortie. Cette table doit déjà exister dans le catalogue de données..
M Structure de la ySQLCatalog cible
Spécifie une cible qui utilise MySQL.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
P Structure de la ostgreSQLCatalog cible
Spécifie une cible qui utilise PostgresSQL.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
O Structure racleSQLCatalog cible
Spécifie une cible qui utilise OracleSQL.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
icrosoftSQLServerCatalogTarget Structure en M
Spécifie une cible qui utilise MicrosoftSQL.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
RedshiftTarget structure
Indique une cible qui utilise Amazon Redshift.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
-
RedshiftTmpDir
— Chaîne UTF -8, correspondant auCustom string pattern #59.Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.
-
TmpDirIAMRole
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le IAM rôle doté d'autorisations.
-
UpsertRedshiftOptions
– Un objet UpsertRedshiftTargetOptions.Jeu d'options permettant de configurer une opération de mise à jour/insertion lors de l'écriture vers une cible Redshift.
AmazonRedshiftTarget structure
Indique une cible Amazon Redshift.
Champs
-
Name
— Chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible Amazon Redshift.
-
Data
– Un objet AmazonRedshiftNodeData.Indique les données du nœud cible Amazon Redshift.
-
Inputs
— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
UpsertRedshiftTargetOptions structure
Options permettant de configurer une opération de mise à jour/insertion lors de l'écriture vers une cible Redshift.
Champs
-
TableLocation
— Chaîne UTF -8, correspondant auCustom string pattern #59.Emplacement physique de la table Redshift.
-
ConnectionName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Nom de la connexion à utiliser pour écrire dans Redshift.
-
UpsertKeys
— Un tableau de UTF -8 chaînes.Clés utilisées pour déterminer si une opération de mise à jour ou d'insertion est nécessaire.
CatalogTarget Structure S3
Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
SchemaChangePolicy
– Un objet CatalogSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
GlueParquetTarget Structure S3
Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Un seul chemin Amazon S3 sur lequel écrire.
-
Compression
— Chaîne UTF -8 (valeurs valides :snappy="SNAPPY"
| |lzo="LZO"
|gzip="GZIP"
uncompressed="UNCOMPRESSED"
|none="NONE"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
SchemaChangePolicy
– Un objet DirectSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
CatalogSchemaChangePolicy structure
Une politique qui indique des comportements de mise à jour pour l'crawler.
Champs
-
EnableUpdateCatalog
– Booléen.S'il faut utiliser ou non le comportement de mise à jour spécifié lorsque l'crawler détecte un schéma modifié.
-
UpdateBehavior
— Chaîne UTF -8 (valeurs valides :UPDATE_IN_DATABASE
|LOG
).Comportement de mise à jour lorsque le crawler détecte un schéma modifié.
DirectTarget Structure S3
Indique une cible de données qui écrit dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Un seul chemin Amazon S3 sur lequel écrire.
-
Compression
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
Format
— Obligatoire : chaîne UTF -8 (valeurs valides :json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
).Définit le format de sortie des données pour la cible.
-
SchemaChangePolicy
– Un objet DirectSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
HudiCatalogTarget Structure S3
Spécifie une cible qui écrit dans une source de données Hudi du catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
AdditionalOptions
– obligatoire : tableau de mappage de paires clé-valeur.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires pour le connecteur.
-
SchemaChangePolicy
– Un objet CatalogSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
HudiDirectTarget Structure S3
Spécifie une cible qui écrit dans une source de données Hudi en Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le chemin d'accès Amazon S3 de votre source de données Hudi sur laquelle écrire.
-
Compression
— Obligatoire : chaîne UTF -8 (valeurs valides :gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Format
— Obligatoire : chaîne UTF -8 (valeurs valides :json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
).Définit le format de sortie des données pour la cible.
-
AdditionalOptions
– obligatoire : tableau de mappage de paires clé-valeur.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires pour le connecteur.
-
SchemaChangePolicy
– Un objet DirectSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
DeltaCatalogTarget Structure S3
Spécifie une cible qui écrit dans une source de données Delta Lake dans le catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires pour le connecteur.
-
SchemaChangePolicy
– Un objet CatalogSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
DeltaDirectTarget Structure S3
Spécifie une cible qui écrit dans une source de données de Delta Lake dans Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le chemin d'accès Amazon S3 de votre source de données Delta Lake sur laquelle écrire.
-
Compression
— Obligatoire : chaîne UTF -8 (valeurs valides :uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont
"gzip"
et"bzip"
). -
Format
— Obligatoire : chaîne UTF -8 (valeurs valides :json="JSON"
csv="CSV"
|avro="AVRO"
| |orc="ORC"
|parquet="PARQUET"
hudi="HUDI"
|delta="DELTA"
).Définit le format de sortie des données pour la cible.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique des options de connexion supplémentaires pour le connecteur.
-
SchemaChangePolicy
– Un objet DirectSchemaChangePolicy.Une politique qui indique les évolutions de mise à jour pour le crawler.
DirectSchemaChangePolicy structure
Une politique qui indique des comportements de mise à jour pour l'crawler.
Champs
-
EnableUpdateCatalog
– Booléen.S'il faut utiliser ou non le comportement de mise à jour spécifié lorsque l'crawler détecte un schéma modifié.
-
UpdateBehavior
— Chaîne UTF -8 (valeurs valides :UPDATE_IN_DATABASE
|LOG
).Comportement de mise à jour lorsque le crawler détecte un schéma modifié.
-
Table
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique la table de la base de données à laquelle s'applique la politique de modification du schéma.
-
Database
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique la base de données à laquelle s'applique la politique de modification du schéma.
ApplyMapping structure
Indique une transformation qui mappe les clés de propriétés de données de la source de données aux clés de propriété de données de la cible de données. Vous pouvez renommer les clés, modifier leur type de données et choisir les clés à supprimer du jeu de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Mapping
– Obligatoire : Un tableau d'objets Mappage.Indique le mappage des clés de propriétés de données de la source de données avec les clés de propriétés de données de la cible de données.
Structure de mappage
Indique le mappage des clés de propriété de données.
Champs
-
ToKey
— Chaîne UTF -8, correspondant auCustom string pattern #59.Après le mappage d'application, quel nom donner à la colonne. Peut être similaire à
FromPath
. -
FromPath
— Un tableau de UTF -8 chaînes.La table ou la colonne à modifier.
-
FromType
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le type des données à modifier.
-
ToType
— Chaîne UTF -8, correspondant auCustom string pattern #59.Le type de données sous lequel les données doivent être modifiées.
-
Dropped
– Booléen.Si ce paramètre est défini sur « VRAI », la colonne est supprimée.
-
Children
– Un tableau d'objets Mappage.S'applique uniquement aux structures de données imbriquées. Si vous souhaitez modifier la structure parente, mais également l'un de ses enfants, vous pouvez remplir cette structure de données. C'est aussi
Mapping
, mais sonFromPath
sera leFromPath
du parent plus leFromPath
provenant de cette structure.Pour la partie enfants, supposons que vous ayez la structure suivante :
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
Vous pouvez Indiquer un
Mapping
qui se présente sous la forme suivante :{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
SelectFields structure
Indique une transformation qui choisit les clés de propriété de données que vous souhaitez conserver.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.JSONChemin d'accès à une variable de la structure de données.
DropFields structure
Indique une transformation qui choisit les clés de propriété de données que vous souhaitez supprimer.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.JSONChemin d'accès à une variable de la structure de données.
RenameField structure
Indique une transformation qui renomme une clé de propriété de données unique.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
SourcePath
— Obligatoire : un tableau de UTF -8 chaînes.JSONChemin d'accès à une variable de la structure de données pour les données sources.
-
TargetPath
— Obligatoire : un tableau de UTF -8 chaînes.JSONChemin d'accès à une variable de la structure de données pour les données cibles.
Structure Spigot
Indique une transformation qui écrit des échantillons de données dans un compartiment Amazon S3.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Un chemin dans Amazon S3 où la transformation écrira un sous-ensemble d'enregistrements de l'ensemble de données dans un JSON fichier d'un compartiment Amazon S3.
-
Topk
– Nombre (entier), 100 au maximum.Indique un certain nombre de registres à écrire à partir du début du jeu de données.
-
Prob
– Nombre (double), 1 au maximum.La probabilité (valeur décimale ayant une valeur maximale de 1) de prélèvement d'un registre donné. La valeur 1 indique que chaque ligne lue à partir du jeu de données doit être incluse dans l'exemple de sortie.
Structure Join
Indique une transformation qui joint deux jeux de données en un jeu de données à l'aide d'une phrase de comparaison sur les clés de propriété de données spécifiées. Vous pouvez utiliser des jointures internes (ou intérieures), externes (ou extérieures), gauche, droite, semi gauche et anti gauche.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
JoinType
— Obligatoire : chaîne UTF -8 (valeurs valides :equijoin="EQUIJOIN"
left="LEFT"
| |right="RIGHT"
|outer="OUTER"
leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
).Indique le type de jointure à effectuer sur les jeux de données.
-
Columns
– Obligatoire : Tableau d'objets JoinColumn, 2 structures minimum et 2 structures maximum.Liste des deux colonnes à joindre.
JoinColumn structure
Indique une colonne à joindre.
Champs
-
From
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La colonne à joindre.
-
Keys
— Obligatoire : un tableau de UTF -8 chaînes.La clé de la colonne à joindre.
SplitFields structure
Indique une transformation qui divise les clés de propriété de données en deux DynamicFrames
. Le résultat est une collection de DynamicFrames
: une avec les clés de propriété de données sélectionnées, et une autre avec les clés de propriété de données restantes.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Paths
— Obligatoire : un tableau de UTF -8 chaînes.JSONChemin d'accès à une variable de la structure de données.
SelectFromCollection structure
Indique une transformation qui en choisit une DynamicFrame
provenant d'une collection de DynamicFrames
. Le résultat est le DynamicFrame
sélectionné
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Index
– Obligatoire : Nombre (entier), pas plus qu'Aucun.L'index du DynamicFrame à sélectionner.
FillMissingValues structure
Précise une transformation qui localise les registres dans le jeu de données dont les valeurs sont manquantes et ajoute un nouveau champ avec une valeur déterminée par imputation. Le jeu de données source est utilisé pour entraîner le modèle de machine learning (ML) qui détermine la valeur manquante.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
ImputedPath
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.JSONChemin d'accès à une variable de la structure de données de l'ensemble de données imputé.
-
FilledPath
— Chaîne UTF -8, correspondant auCustom string pattern #59.JSONChemin d'accès à une variable dans la structure de données de l'ensemble de données rempli.
Structure Filtre
Indique une transformation qui divise un jeu de données en deux, en fonction d'une condition de filtre.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
LogicalOperator
— Obligatoire : chaîne UTF -8 (valeurs valides :AND
|OR
).L'opérateur utilisé pour filtrer les lignes en comparant la valeur clé à une valeur spécifiée.
-
Filters
– Obligatoire : Un tableau d'objets FilterExpression.Indique une expression de filtre.
FilterExpression structure
Indique une expression de filtre.
Champs
-
Operation
— Obligatoire : chaîne UTF -8 (valeurs valides :EQ
LT
|GT
| |LTE
|GTE
REGEX
|ISNULL
).Le type d'opération à effectuer dans l'expression.
-
Negated
– Booléen.Indique si l'expression doit être annulée.
-
Values
– Obligatoire : Un tableau d'objets FilterValue.Une liste de valeurs de filtre.
FilterValue structure
Représente une entrée unique dans la liste de valeurs de FilterExpression
.
Champs
-
Type
— Obligatoire : chaîne UTF -8 (valeurs valides :COLUMNEXTRACTED
|CONSTANT
).Le type de valeur de filtre.
-
Value
— Obligatoire : un tableau de UTF -8 chaînes.La valeur à associer.
CustomCode structure
Indique une transformation qui utilise le code personnalisé que vous fournissez pour effectuer la transformation des données. La sortie est une collection de DynamicFrames.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.Les entrées de données identifiées par leurs noms de nœuds.
-
Code
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #52.Le code personnalisé utilisé pour effectuer la transformation des données.
-
ClassName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom défini pour la classe de nœuds de code personnalisée.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la transformation du code personnalisé.
SQLStructure Spark
Spécifie une transformation dans laquelle vous entrez une SQL requête à l'aide de SQL la syntaxe Spark pour transformer les données. Le résultat est un DynamicFrame
unique .
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.Les entrées de données identifiées par leurs noms de nœuds. Vous pouvez associer un nom de table à chaque nœud d'entrée à utiliser dans la SQL requête. Le nom que vous choisissez doit respecter les restrictions de SQL dénomination de Spark.
-
SqlQuery
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #60.SQLRequête qui doit utiliser SQL la syntaxe Spark et renvoyer un seul ensemble de données.
-
SqlAliases
– Obligatoire : Un tableau d'objets SqlAlias.Liste d’alias Un alias vous permet de spécifier le nom à utiliser SQL pour une entrée donnée. Par exemple, vous avez une source de données nommée « MyDataSource ». Si vous spécifiez
From
Alias
as MyDataSource et as SqlName, alors dans votre SQLselect * from SqlName
et qui obtient des données de MyDataSource.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour la SQL transformation Spark.
SqlAlias structure
Représente une entrée unique dans la liste de valeurs de SqlAliases
.
Champs
-
From
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.Une table ou une colonne d'une table.
-
Alias
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Un nom temporaire donné à une table ou à une colonne d'une table.
DropNullFields structure
Indique une transformation qui supprime les colonnes du jeu de données si toutes les valeurs de la colonne sont « nulles ». Par défaut, AWS Glue Studio reconnaît les objets nuls, mais certaines valeurs telles que les chaînes vides, les chaînes « nulles », les entiers -1 ou d'autres espaces réservés tels que les zéros ne sont pas automatiquement reconnues comme nulles.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
NullCheckBoxList
– Un objet NullCheckBoxList.Une structure qui indique si certaines valeurs sont reconnues comme des valeurs null en vue de la suppression.
-
NullTextList
– Un tableau d'objets NullValueField, 50 structures maximum.Structure qui spécifie une liste de NullValueField structures représentant une valeur nulle personnalisée telle que zéro ou une autre valeur utilisée comme espace réservé nul propre à l'ensemble de données.
La transformation
DropNullFields
supprime les valeurs nulles personnalisées uniquement, si la valeur de l'espace réservé nul et du type de données correspondent aux données.
NullCheckBoxList structure
Indique si certaines valeurs sont reconnues comme des valeurs null en vue de la suppression.
Champs
-
IsEmpty
– Booléen.Indique qu'une chaîne vide est considérée comme une valeur null.
-
IsNullString
– Booléen.Indique qu'une valeur révélant le mot « null » est considérée comme une valeur null.
-
IsNegOne
– Booléen.Indique qu'une valeur entière de -1 est considérée comme une valeur null.
NullValueField structure
Représente une valeur null personnalisée telle qu'un zéro ou une autre valeur utilisée comme espace réservé null unique pour le jeu de données.
Champs
-
Value
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La valeur de l'espace réservé null.
-
Datatype
– Obligatoire : un objet Datatype.Le type de données de la valeur.
Structure Datatype
Une structure représentant le type de données de la valeur.
Champs
-
Id
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.Le type de données de la valeur.
-
Label
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.Une étiquette affectée au type de données.
Structure Fusion
Indique une transformation qui fusionne une DynamicFrame
avec une DynamicFrame
intermédiaire basée sur les clés primaires spécifiées pour identifier les registres. Les registres en double (registres avec les mêmes clés primaires) ne sont pas dédupliqués.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Source
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.La source
DynamicFrame
qui sera fusionnée avec uneDynamicFrame
intermédiaire. -
PrimaryKeys
— Obligatoire : un tableau de UTF -8 chaînes.La liste des champs de clé primaire permettant de faire correspondre les registres des trames dynamiques source et intermédiaire.
Structure Union
Indique une transformation qui combine les lignes de deux jeux de données ou plus en un seul résultat.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.Les entrées de l'ID du nœud dans la transformation.
-
UnionType
— Obligatoire : chaîne UTF -8 (valeurs valides :ALL
|DISTINCT
).Indique le type de transformation Union.
Spécifiez
ALL
de joindre toutes les lignes des sources de données au résultat DynamicFrame. L'union qui en résulte ne supprime pas les lignes en double.Spécifiez
DISTINCT
de supprimer les lignes dupliquées dans le résultat DynamicFrame.
PIIDetectionstructure
Spécifie une transformation qui identifie, supprime ou masque les PII données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de l'ID du nœud dans la transformation.
-
PiiType
— Obligatoire : chaîne UTF -8 (valeurs valides :RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
).Indique le type de PIIDetection transformation.
-
EntityTypesToDetect
— Obligatoire : un tableau de UTF -8 chaînes.Indique les types d'entités que la PIIDetection transformation identifiera en tant que PII données.
PIIles entités de type incluent : PERSON USA _ NAME DATESNN, USA _EMAIL, _ITIN, USA PASSPORT _NUMBER, PHONE _NUMBER, BANK _ACCOUNT, _ADDRESS, MAC IP_ADDRESS, USA CPT _CODE, USA _CODE, HCPCS USA _, NATIONAL _ DRUG _CODE, USA _ MEDICARE BENEFICIARY _IDENTIFIER, USA _ HEALTH _NUMBER, INSURANCE CLAIM _ _CARD, CREDIT USA _ NATIONAL_ PROVIDER _IDENTIFIER, USA _ DEA _NUMBER, USA _ DRIVING _ LICENSE
-
OutputColumnName
— Chaîne UTF -8, correspondant auCustom string pattern #59.Indique le nom de la colonne de sortie qui contiendra tout type d'entité détecté dans cette ligne.
-
SampleFraction
– Nombre (double), 1 au maximum.Indique la fraction des données à échantillonner lors de la recherche d'PIIentités.
-
ThresholdFraction
– Nombre (double), 1 au maximum.Indique la fraction des données qui doit être satisfaite pour qu'une colonne soit identifiée comme PII donnée.
-
MaskValue
— Chaîne UTF -8, d'une longueur maximale de 256 octets, correspondant auCustom string pattern #56.Indique la valeur qui remplacera l'entité détectée.
Structure Aggregate
Indique une transformation qui regroupe les lignes par champs choisis et calcule la valeur agrégée par fonction spécifiée.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Indique les champs et les lignes à utiliser comme entrées pour la transformation agrégée.
-
Groups
— Obligatoire : un tableau de UTF -8 chaînes.Indique les champs à regrouper.
-
Aggs
– Obligatoire : tableau d'objets AggregateOperation, 1 structure minimum et 30 structures maximum.Indique les fonctions d'agrégation à exécuter sur des champs spécifiés.
DropDuplicates structure
Indique une transformation qui supprime des lignes de données répétitives d'un jeu de données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud de transformation.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les entrées de données identifiées par leurs noms de nœuds.
-
Columns
— Un tableau de UTF -8 chaînes.Nom des colonnes à fusionner ou à supprimer en cas de répétition.
GovernedCatalogTarget structure
Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible de données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
-
PartitionKeys
— Un tableau de UTF -8 chaînes.Indique le partitionnement natif à l'aide d'une séquence de clés.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la table de la base de données dans laquelle écrire les données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le nom de la base de données dans laquelle écrire les données.
-
SchemaChangePolicy
– Un objet CatalogSchemaChangePolicy.Politique qui indique des comportements de mise à jour pour le catalogue gouverné.
GovernedCatalogSource structure
Spécifie le magasin de données dans le catalogue de AWS Glue données régi.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du stocker de données.
-
Database
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La base de données à partir de laquelle lire les données.
-
Table
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Table de base de données à lire.
-
PartitionPredicate
— Chaîne UTF -8, correspondant auCustom string pattern #59.Les partitions satisfaisant à ce prédicat sont supprimées. Les fichiers qui se situent dans la période de conservation pour ces partitions ne sont pas supprimés. Valeur définie sur
""
– vide par défaut. -
AdditionalOptions
– Un objet S3 SourceAdditionalOptions.Indique des options de connexion supplémentaires.
AggregateOperation structure
Indique l'ensemble de paramètres permettant d'effectuer l'agrégation de la transformation agrégée.
Champs
-
Column
— Obligatoire : un tableau de UTF -8 chaînes.Indique la colonne du jeu de données sur lequel la fonction d'agrégation sera appliquée.
-
AggFunc
— Obligatoire : chaîne UTF -8 (valeurs valides :avg
countDistinct
| |count
|first
|last
|kurtosis
|max
|min
|skewness
|stddev_samp
|stddev_pop
| |sum
|sumDistinct
var_samp
|var_pop
).Indique la fonction d'agrégation à appliquer.
Les fonctions d'agrégation possibles incluent : avgcountDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, var_samp, var_pop sumDistinct
GlueSchema structure
Indique un schéma défini par l'utilisateur lorsqu'un schéma ne peut pas être déterminé par AWS Glue.
Champs
-
Columns
– Un tableau d'objets GlueStudioSchemaColumn.Spécifie les définitions de colonnes qui constituent un AWS Glue schéma.
GlueStudioSchemaColumn structure
Spécifie une seule colonne dans une définition de AWS Glue schéma.
Champs
-
Name
— Obligatoire : chaîne UTF -8, d'une longueur maximale de 1024 octets, correspondant auSingle-line string pattern.Nom de la colonne dans le schéma AWS Glue Studio.
-
Type
— Chaîne UTF -8, d'une longueur maximale de 131072 octets, correspondant au. Single-line string patternType de ruche pour cette colonne dans le schéma AWS Glue Studio.
GlueStudioColumn structure
Spécifie une seule colonne dans AWS Glue Studio.
Champs
-
Key
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.La clé de la colonne dans AWS Glue Studio.
-
FullPath
— Obligatoire : un tableau de UTF -8 chaînes.TThecomplet URL de la colonne dans AWS Glue Studio.
-
Type
— Obligatoire : chaîne UTF -8 (valeurs valides :array="ARRAY"
bigint="BIGINT"
bigint array="BIGINT_ARRAY"
|binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
|float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
).TThetype de colonne dans AWS Glue Studio.
-
Children
: tableau d'une structure.TTheenfants de la colonne parent dans AWS Glue Studio.
DynamicTransform structure
Spécifie l'ensemble de paramètres permettant d'effectuer la transformation dynamique.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le nom de la transformation dynamique.
-
TransformName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le nom de la transformation dynamique tel qu'il apparaît dans l'éditeur visuel de AWS Glue Studio.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Spécifie les entrées requises pour la transformation dynamique.
-
Parameters
– Un tableau d'objets TransformConfigParameter.Spécifie les paramètres de la transformation dynamique.
-
FunctionName
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le nom de la fonction de la transformation dynamique.
-
Path
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le chemin de la source de transformation dynamique et des fichiers de configuration.
-
Version
— Chaîne UTF -8, correspondant auCustom string pattern #59.Ce champ n'est pas utilisé et sera obsolète dans une version ultérieure.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique le schéma de données de la transformation dynamique.
TransformConfigParameter structure
Spécifie les paramètres du fichier de configuration de la transformation dynamique.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le nom du paramètre dans le fichier de configuration de la transformation dynamique.
-
Type
— Obligatoire : chaîne UTF -8 (valeurs valides :str="STR"
int="INT"
|float="FLOAT"
| |complex="COMPLEX"
|bool="BOOL"
list="LIST"
|null="NULL"
).Spécifie le type de paramètre dans le fichier de configuration de la transformation dynamique.
-
ValidationRule
— Chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie la règle de validation dans le fichier de configuration de la transformation dynamique.
-
ValidationMessage
— Chaîne UTF -8, correspondant auCustom string pattern #59.Spécifie le message de validation dans le fichier de configuration de la transformation dynamique.
-
Value
— Un tableau de UTF -8 chaînes.Spécifie la valeur du paramètre dans le fichier de configuration de la transformation dynamique.
-
ListType
— Chaîne UTF -8 (valeurs valides :str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
list="LIST"
|null="NULL"
).Spécifie le type de liste du paramètre dans le fichier de configuration de la transformation dynamique.
-
IsOptional
– Booléen.Spécifie si le paramètre est facultatif ou non dans le fichier de configuration de la transformation dynamique.
EvaluateDataQuality structure
Spécifie vos critères d'évaluation de la qualité des données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de l'évaluation de la qualité des données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Entrées de votre évaluation de la qualité des données.
-
Ruleset
— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 65536 octets, correspondant au. Custom string pattern #57Ensemble de règles pour l'évaluation de la qualité de vos données.
-
Output
— Chaîne UTF -8 (valeurs valides :PrimaryInput
|EvaluationResults
).Résultat de votre évaluation de la qualité des données.
-
PublishingOptions
– Un objet DQResultsPublishingOptions.Options permettant de configurer le mode de publication de vos résultats.
-
StopJobOnFailureOptions
– Un objet DQStopJobOnFailureOptions.Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.
DQResultsPublishingOptionsstructure
Options permettant de configurer le mode de publication des résultats de votre évaluation de la qualité des données.
Champs
-
EvaluationContext
— Chaîne UTF -8, correspondant auCustom string pattern #58.Contexte de l'évaluation.
-
ResultsS3Prefix
— Chaîne UTF -8, correspondant auCustom string pattern #59.Préfixe Amazon S3 ajouté aux résultats.
-
CloudWatchMetricsEnabled
– Booléen.Activez les métriques pour vos résultats de qualité des données.
-
ResultsPublishingEnabled
– Booléen.Activez la publication pour vos résultats de qualité des données.
DQStopJobOnFailureOptionsstructure
Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.
Champs
-
StopJobOnFailureTiming
— Chaîne UTF -8 (valeurs valides :Immediate
|AfterDataLoad
).Quand arrêter la tâche en cas d'échec de votre évaluation de la qualité des données. Les options sont immédiates ou AfterDataLoad.
EvaluateDataQualityMultiFrame structure
Spécifie vos critères d'évaluation de la qualité des données.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de l'évaluation de la qualité des données.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.Entrées de votre évaluation de la qualité des données. La première entrée de cette liste est la source de données principale.
-
AdditionalDataSources
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #61
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Les alias de toutes les sources de données, à l'exception de la source principale.
-
Ruleset
— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 65536 octets, correspondant au. Custom string pattern #57Ensemble de règles pour l'évaluation de la qualité de vos données.
-
PublishingOptions
– Un objet DQResultsPublishingOptions.Options permettant de configurer le mode de publication de vos résultats.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque clé est une chaîne UTF -8 (valeurs valides :
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
).Chaque valeur est une chaîne de caractères UTF -8.
Options permettant de configurer le comportement d'exécution de la transformation.
-
StopJobOnFailureOptions
– Un objet DQStopJobOnFailureOptions.Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.
Structure de la recette
Un nœud AWS Glue Studio qui utilise une AWS Glue DataBrew recette dans les AWS Glue tâches.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom du nœud AWS Glue Studio.
-
Inputs
— Obligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui sont des entrées du nœud de recette, identifiés par un identifiant.
-
RecipeReference
– Un objet RecipeReference.Référence à la DataBrew recette utilisée par le nœud.
-
RecipeSteps
– Un tableau d'objets RecipeStep.Transformez les étapes utilisées dans le nœud de recette.
RecipeReference structure
Référence à une AWS Glue DataBrew recette.
Champs
-
RecipeArn
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Celui ARN de la DataBrew recette.
-
RecipeVersion
— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 16 octets de long.Celui RecipeVersion de la DataBrew recette.
SnowflakeNodeData structure
Spécifie la configuration des nœuds Snowflake dans Studio. AWS Glue
Champs
-
SourceType
— Chaîne UTF -8, correspondant auCustom string pattern #58.Indique la manière dont les données extraites sont spécifiées. Valeurs valides :
"table"
,"query"
. -
Connection
– Un objet Option.Spécifie une connexion au catalogue de AWS Glue données à un point de terminaison Snowflake.
-
Schema
— UTF -8 chaînes.Indique un schéma de base de données Snowflake que votre nœud doit utiliser.
-
Table
— UTF -8 chaînes.Indique une table Snowflake que votre nœud doit utiliser.
-
Database
— UTF -8 chaînes.Indique une base de données Snowflake que votre nœud doit utiliser.
-
TempDir
— Chaîne UTF -8, correspondant auCustom string pattern #59.Non utilisé actuellement.
-
IamRole
– Un objet Option.Non utilisé actuellement.
-
AdditionalOptions
– Tableau de mappage de paires valeur-clé.Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59
Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59
Indique les options supplémentaires transmises au connecteur Snowflake. Si des options sont spécifiées ailleurs dans ce nœud, elles seront prioritaires.
-
SampleQuery
— UTF -8 chaînes.SQLChaîne utilisée pour récupérer des données avec le type
query
source. -
PreAction
— UTF -8 chaînes.SQLChaîne exécutée avant que le connecteur Snowflake n'exécute ses actions standard.
-
PostAction
— UTF -8 chaînes.SQLChaîne exécutée une fois que le connecteur Snowflake a effectué ses actions standard.
-
Action
— UTF -8 chaînes.Indique l'action à effectuer lors de l'écriture dans une table contenant des données préexistantes. Valeurs valides:
append
,merge
,truncate
,drop
. -
Upsert
– Booléen.Utilisé lorsque action est
append
. Indique le comportement de résolution lorsqu'une ligne existe déjà. Si la valeur est vraie, les lignes préexistantes seront mises à jour. Si la valeur est fausse, ces lignes seront insérées. -
MergeAction
— Chaîne UTF -8, correspondant auCustom string pattern #58.Indique une action de fusion. Valeurs valides :
simple
,custom
. S'il la valeur est simple, le comportement de fusion est défini parMergeWhenMatched
etMergeWhenNotMatched
. Si la valeur est personnalisée, il est défini parMergeClause
. -
MergeWhenMatched
— Chaîne UTF -8, correspondant auCustom string pattern #58.Indique comment résoudre les enregistrements qui correspondent à des données préexistantes lors de la fusion. Valeurs valides :
update
,delete
. -
MergeWhenNotMatched
— Chaîne UTF -8, correspondant auCustom string pattern #58.Indique comment traiter les enregistrements qui ne correspondent pas aux données préexistantes lors de la fusion. Valeurs valides :
insert
,none
. -
MergeClause
— UTF -8 chaînes.SQLInstruction qui spécifie un comportement de fusion personnalisé.
-
StagingTable
— UTF -8 chaînes.Le nom d'une table intermédiaire utilisée lors de l'exécution de l'action
merge
ou d'actions d'insertionappend
. Les données sont écrites dans cette table, puis déplacées verstable
par une postaction générée. -
SelectedColumns
– Un tableau d'objets Option.Indique les colonnes combinées pour identifier un enregistrement lors de la détection des correspondances pour les fusions et les insertions. Une liste de structures avec des clés
value
,label
etdescription
. Chaque structure décrit une colonne. -
AutoPushdown
– Booléen.Indique si le pushdown automatique des requêtes est activée. Lorsque l'option pushdown est activée, si une partie de la requête peut être « poussée vers le bas » sur le serveur Snowflake, elle est poussée vers le bas au moment de l'exécution de la requête sur Spark. Cela améliore les performances de certaines requêtes.
-
TableSchema
– Un tableau d'objets Option.Définit manuellement le schéma cible du nœud. Une liste de structures avec des clés
value
,label
etdescription
. Chaque structure définit une colonne.
SnowflakeSource structure
Indique une source de données Snowflake.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la source de données Snowflake.
-
Data
– Obligatoire : un objet SnowflakeNodeData.Configuration de la source de données Snowflake.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Indique les schémas définis par l'utilisateur pour vos données de sortie.
SnowflakeTarget structure
Indique une cible Snowflake.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Le nom de la cible Snowflake.
-
Data
– Obligatoire : un objet SnowflakeNodeData.Indique les données du nœud cible Snowflake.
-
Inputs
— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
ConnectorDataSource structure
Spécifie une source générée avec des options de connexion standard.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de ce nœud source.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le
connectionType
, tel que fourni à la AWS Glue bibliothèque sous-jacente. Ce type de nœud prend en charge les types de connexion suivants :-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– obligatoire : tableau de mappage de paires clé-valeur.Chaque touche est une chaîne de caractères UTF -8.
Chaque valeur est une chaîne de caractères UTF -8.
Carte indiquant des options de connexion pour le nœud. Vous trouverez les options de connexion standard pour le type de connexion correspondant dans la section Paramètres de connexion de la AWS Glue documentation.
-
OutputSchemas
– Un tableau d'objets GlueSchema.Spécifie le schéma de données pour cette source.
ConnectorDataTarget structure
Spécifie une cible générée avec des options de connexion standard.
Champs
-
Name
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.Nom de ce nœud cible.
-
ConnectionType
— Obligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.Le
connectionType
, tel que fourni à la AWS Glue bibliothèque sous-jacente. Ce type de nœud prend en charge les types de connexion suivants :-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– obligatoire : tableau de mappage de paires clé-valeur.Chaque touche est une chaîne de caractères UTF -8.
Chaque valeur est une chaîne de caractères UTF -8.
Carte indiquant des options de connexion pour le nœud. Vous trouverez les options de connexion standard pour le type de connexion correspondant dans la section Paramètres de connexion de la AWS Glue documentation.
-
Inputs
— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.Les nœuds qui constituent des entrées pour la cible de données.
RecipeStep structure
Étape de recette utilisée dans un nœud de recette de préparation de données AWS Glue Studio.
Champs
-
Action
– Obligatoire : un objet RecipeAction.L'action de transformation de l'étape de recette.
-
ConditionExpressions
– Un tableau d'objets ConditionExpression.Les expressions de condition pour l'étape de la recette.
RecipeAction structure
Actions définies dans le nœud de recette de préparation des données de AWS Glue Studio.
Champs
-
Operation
— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 128 octets, correspondant auCustom string pattern #54.Fonctionnement de l'action de recette.
-
Parameters
– Tableau de mappage de paires valeur-clé.Chaque clé est une chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 128 octets, correspondant auCustom string pattern #55.
Chaque valeur est une chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 32 768 octets.
Les paramètres de l'action de recette.
ConditionExpression structure
Expression de condition définie dans le nœud de recette de préparation des données de AWS Glue Studio.
Champs
-
Condition
— Obligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 128 octets, correspondant auCustom string pattern #54.La condition de l'expression de la condition.
-
Value
— UTF -8 chaînes, d'une longueur maximale de 1024 octets.Valeur de l'expression de condition.
-
TargetColumn
— Obligatoire : UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 1024 octets.La colonne cible des expressions de condition.