Travail visuel API - AWS Glue
  —  les types de données  —CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSourceSparkConnectorSourceCatalogSourceMa ySQLCatalog sourceostgreSQLCatalogSource PracleSQLCatalogSource OM icrosoftSQLServer CatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOptionS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceD irectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceynamoDBCatalogSource DRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetMa ySQLCatalog cibleostgreSQLCatalogCible PO racleSQLCatalog TargetM icrosoftSQLServer CatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingMappageSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltreFilterExpressionFilterValueCustomCodeÉtincelle SQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldDatatypeFusionnerUnionPIIDetectionRegrouperDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameRecipeRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Travail visuel API

La tâche visuelle vous API permet de créer des tâches d'intégration de données en utilisant l'objet AWS Glue API à partir d'un JSON objet qui représente la configuration visuelle d'une AWS Glue tâche.

Une liste est fournie à une tâche de CodeGenConfigurationNodes création ou de mise à jour API afin d'enregistrer une tâche DAG dans AWS Glue Studio pour la tâche créée et de générer le code associé.

Types de données

CodeGenConfigurationNode structure

CodeGenConfigurationNode Il énumère les différents types de nœuds valides. Une seule et unique de ses variables membres peut être renseignée.

Champs
  • AthenaConnectorSource – Un objet AthenaConnectorSource.

    Indique un connecteur à une source de données Amazon Athena.

  • JDBCConnectorSource – Un objet JDBCConnectorSource.

    Spécifie un connecteur vers une source JDBC de données.

  • SparkConnectorSource – Un objet SparkConnectorSource.

    Indique un connecteur à une source de données Apache Spark.

  • CatalogSource – Un objet CatalogSource.

    Spécifie un magasin de données dans le catalogue de AWS Glue données.

  • RedshiftSource – Un objet RedshiftSource.

    Indique un stocker de données Amazon Redshift.

  • S3CatalogSource – Un objet S3 CatalogSource.

    Spécifie un magasin de données Amazon S3 dans le catalogue de AWS Glue données.

  • S3CsvSource – Un objet S3 CsvSource.

    Spécifie un magasin de données à valeur séparée par des commandes (CSV) stocké dans Amazon S3.

  • S3JsonSource – Un objet S3 JsonSource.

    Spécifie un magasin de JSON données stocké dans Amazon S3.

  • S3ParquetSource – Un objet S3 ParquetSource.

    Indique un stocker de données Apache Parquet stocké dans Amazon S3.

  • RelationalCatalogSource – Un objet RelationalCatalogSource.

    Spécifie un magasin de données de catalogue relationnel dans le catalogue de AWS Glue données.

  • DynamoDBCatalogSource – Un objet ynamoDBCatalogSource D.

    Spécifie un magasin de données du DBC catalogue Dynamo dans le catalogue de AWS Glue données.

  • JDBCConnectorTarget – Un objet JDBCConnectorTarget.

    Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.

  • SparkConnectorTarget – Un objet SparkConnectorTarget.

    Indique une cible qui utilise un connecteur Apache Spark.

  • CatalogTarget – Un objet BasicCatalogTarget.

    Spécifie une cible qui utilise une table AWS Glue de catalogue de données.

  • RedshiftTarget – Un objet RedshiftTarget.

    Indique une cible qui utilise Amazon Redshift.

  • S3CatalogTarget – Un objet S3 CatalogTarget.

    Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.

  • S3GlueParquetTarget – Un objet S3 GlueParquetTarget.

    Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.

  • S3DirectTarget – Un objet S3 DirectTarget.

    Indique une cible de données qui écrit dans Amazon S3.

  • ApplyMapping – Un objet ApplyMapping.

    Indique une transformation qui mappe les clés de propriétés de données de la source de données aux clés de propriété de données de la cible de données. Vous pouvez renommer les clés, modifier leur type de données et choisir les clés à supprimer du jeu de données.

  • SelectFields – Un objet SelectFields.

    Indique une transformation qui choisit les clés de propriété de données que vous souhaitez conserver.

  • DropFields – Un objet DropFields.

    Indique une transformation qui choisit les clés de propriété de données que vous souhaitez supprimer.

  • RenameField – Un objet RenameField.

    Indique une transformation qui renomme une clé de propriété de données unique.

  • Spigot – Un objet Spigot.

    Indique une transformation qui écrit des échantillons de données dans un compartiment Amazon S3.

  • Join – Un objet Join.

    Indique une transformation qui joint deux jeux de données en un jeu de données à l'aide d'une phrase de comparaison sur les clés de propriété de données spécifiées. Vous pouvez utiliser des jointures internes (ou intérieures), externes (ou extérieures), gauche, droite, semi gauche et anti gauche.

  • SplitFields – Un objet SplitFields.

    Indique une transformation qui divise les clés de propriété de données en deux DynamicFrames. Le résultat est une collection de DynamicFrames : une avec les clés de propriété de données sélectionnées, et une autre avec les clés de propriété de données restantes.

  • SelectFromCollection – Un objet SelectFromCollection.

    Indique une transformation qui en choisit une DynamicFrame provenant d'une collection de DynamicFrames. Le résultat est le DynamicFrame sélectionné

  • FillMissingValues – Un objet FillMissingValues.

    Indique une transformation qui localise les registres dans le jeu de données dont les valeurs sont manquantes et ajoute un nouveau champ avec une valeur déterminée par imputation. Le jeu de données source est utilisé pour entraîner le modèle de machine learning (ML) qui détermine la valeur manquante.

  • Filter – Un objet Filtre.

    Indique une transformation qui divise un jeu de données en deux, en fonction d'une condition de filtre.

  • CustomCode – Un objet CustomCode.

    Indique une transformation qui utilise le code personnalisé que vous fournissez pour effectuer la transformation des données. La sortie est une collection de DynamicFrames.

  • SparkSQL – Un objet Étincelle SQL.

    Spécifie une transformation dans laquelle vous entrez une SQL requête à l'aide de SQL la syntaxe Spark pour transformer les données. Le résultat est un DynamicFrame unique.

  • DirectKinesisSource – Un objet DirectKinesisSource.

    Indique une source de données Amazon Kinesis directe.

  • DirectKafkaSource – Un objet DirectKafkaSource.

    Indique un stocker de données Apache Kafka.

  • CatalogKinesisSource – Un objet CatalogKinesisSource.

    Spécifie une source de données Kinesis dans le catalogue de AWS Glue données.

  • CatalogKafkaSource – Un objet CatalogKafkaSource.

    Indique un stocker de données Apache Kafka dans le catalogue de données.

  • DropNullFields – Un objet DropNullFields.

    Indique une transformation qui supprime les colonnes du jeu de données si toutes les valeurs de la colonne sont « nulles ». Par défaut, AWS Glue Studio reconnaît les objets nuls, mais certaines valeurs telles que les chaînes vides, les chaînes « nulles », les entiers -1 ou d'autres espaces réservés tels que les zéros ne sont pas automatiquement reconnues comme nulles.

  • Merge – Un objet Fusionner.

    Indique une transformation qui fusionne une DynamicFrame avec une DynamicFrame intermédiaire basée sur les clés primaires spécifiées pour identifier les registres. Les registres en double (registres avec les mêmes clés primaires) ne sont pas dédupliqués.

  • Union – Un objet Union.

    Indique une transformation qui combine les lignes de deux jeux de données ou plus en un seul résultat.

  • PIIDetection – Un objet PIIDetection.

    Spécifie une transformation qui identifie, supprime ou masque les PII données.

  • Aggregate – Un objet Regrouper.

    Indique une transformation qui regroupe les lignes par champs choisis et calcule la valeur agrégée par fonction spécifiée.

  • DropDuplicates – Un objet DropDuplicates.

    Indique une transformation qui supprime des lignes de données répétitives d'un jeu de données.

  • GovernedCatalogTarget – Un objet GovernedCatalogTarget.

    Indique une cible de données qui écrit dans un catalogue gouverné.

  • GovernedCatalogSource – Un objet GovernedCatalogSource.

    Indique une source de données dans un catalogue de données gouverné.

  • MicrosoftSQLServerCatalogSource – Un objet M icrosoftSQLServer CatalogSource.

    Spécifie une source de données Microsoft SQL Server dans le catalogue de AWS Glue données.

  • MySQLCatalogSource – Un objet Ma ySQLCatalog source.

    Spécifie une source SQL de données My dans le catalogue de AWS Glue données.

  • OracleSQLCatalogSource – Un objet racleSQLCatalogSource O.

    Spécifie une source de données Oracle dans le catalogue de AWS Glue données.

  • PostgreSQLCatalogSource – Un objet ostgreSQLCatalogSource P.

    Spécifie une source de SQL données Postgres dans le catalogue de AWS Glue données.

  • MicrosoftSQLServerCatalogTarget – Un objet M icrosoftSQLServer CatalogTarget.

    Spécifie une cible qui utilise MicrosoftSQL.

  • MySQLCatalogTarget – Un objet Ma ySQLCatalog cible.

    Spécifie une cible qui utilise MySQL.

  • OracleSQLCatalogTarget – Un objet O racleSQLCatalog Target.

    Spécifie une cible qui utilise OracleSQL.

  • PostgreSQLCatalogTarget – Un objet ostgreSQLCatalogCible P.

    Spécifie une cible qui utilise PostgresSQL.

  • DynamicTransform – Un objet DynamicTransform.

    Spécifie une transformation visuelle personnalisée créée par un utilisateur.

  • EvaluateDataQuality – Un objet EvaluateDataQuality.

    Spécifie vos critères d'évaluation de la qualité des données.

  • S3CatalogHudiSource – Un objet S3 CatalogHudiSource.

    Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.

  • CatalogHudiSource – Un objet CatalogHudiSource.

    Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données.

  • S3HudiSource – Un objet S3 HudiSource.

    Spécifie une source de données Hudi stockée dans. Amazon S3

  • S3HudiCatalogTarget – Un objet S3 HudiCatalogTarget.

    Spécifie une cible qui écrit dans une source de données Hudi du catalogue de AWS Glue données.

  • S3HudiDirectTarget – Un objet S3 HudiDirectTarget.

    Spécifie une cible qui écrit dans une source de données Hudi en Amazon S3.

  • S3CatalogDeltaSource – Un objet S3 CatalogDeltaSource.

    Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.

  • CatalogDeltaSource – Un objet CatalogDeltaSource.

    Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données.

  • S3DeltaSource – Un objet S3 DeltaSource.

    Spécifie une source de données Delta Lake stockée dans Amazon S3.

  • S3DeltaCatalogTarget – Un objet S3 DeltaCatalogTarget.

    Spécifie une cible qui écrit dans une source de données Delta Lake dans le catalogue de AWS Glue données.

  • S3DeltaDirectTarget – Un objet S3 DeltaDirectTarget.

    Spécifie une cible qui écrit dans une source de données de Delta Lake dans Amazon S3.

  • AmazonRedshiftSource – Un objet AmazonRedshiftSource.

    Indique une cible qui écrit dans une source de données dans Amazon Redshift.

  • AmazonRedshiftTarget – Un objet AmazonRedshiftTarget.

    Indique une cible qui écrit dans une cible de données dans Amazon Redshift.

  • EvaluateDataQualityMultiFrame – Un objet EvaluateDataQualityMultiFrame.

    Spécifie vos critères d'évaluation de la qualité des données. Autorise plusieurs données d'entrée et renvoie une collection de cadres dynamiques.

  • Recipe – Un objet Recipe.

    Spécifie un nœud de AWS Glue DataBrew recette.

  • SnowflakeSource – Un objet SnowflakeSource.

    Indique une source de données Snowflake.

  • SnowflakeTarget – Un objet SnowflakeTarget.

    Indique une cible qui écrit dans une source de données Snowflake.

  • ConnectorDataSource – Un objet ConnectorDataSource.

    Spécifie une source générée avec des options de connexion standard.

  • ConnectorDataTarget – Un objet ConnectorDataTarget.

    Spécifie une cible générée avec des options de connexion standard.

JDBCConnectorOptionsstructure

Options de connexion supplémentaires pour le connecteur.

Champs
  • FilterPredicate— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Clause de condition supplémentaire pour filtrer les données à partir de la source. Par exemple :

    BillingCity='Mountain View'

    Lorsque vous utilisez une requête au lieu d'un nom de tableau, vous devez vérifier que la requête fonctionne avec le filterPredicate spécifié.

  • PartitionColumn— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom d'une colonne entière utilisée pour le partitionnement. Cette option fonctionne uniquement lorsqu'elle est incluse dans lowerBound, upperBound et numPartitions. Cette option fonctionne de la même manière que dans le SQL JDBC lecteur Spark.

  • LowerBound – Nombre (long), pas plus qu'Aucun.

    La valeur minimale de partitionColumn qui est utilisée pour décider de la progression de la partition.

  • UpperBound – Nombre (long), pas plus qu'Aucun.

    La valeur maximale de partitionColumn qui est utilisée pour décider de la progression de la partition.

  • NumPartitions – Nombre (long), pas plus qu'Aucun.

    Nombre de partitions. Cette valeur, ainsi que lowerBound (inclusive) et upperBound (exclusive) forment les progressions de partition pour les expressions de clause WHERE générées qui sont utilisées pour diviser le fichier partitionColumn.

  • JobBookmarkKeys— Un tableau de UTF -8 chaînes.

    Le nom des clés de marque-page de tâches sur lesquelles effectuer le tri.

  • JobBookmarkKeysSortOrder— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique un ordre de tri croissant ou décroissant.

  • DataTypeMapping – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF -8 (valeurs valides : ARRAY | | BIGINT | BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC | | NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP TIMESTAMP_WITH_TIMEZONE| TINYINT | VARBINARY |VARCHAR).

    Chaque valeur est une chaîne UTF -8 (valeurs valides : DATE | | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE SHORT |DOUBLE).

    Mappage de type de données personnalisé qui crée un mappage entre un type de JDBC données et un type de AWS Glue données. Par exemple, l'option "dataTypeMapping":{"FLOAT":"STRING"} mappe les champs de JDBC données de String type Java FLOAT en appelant la ResultSet.getString() méthode du pilote et l'utilise pour créer l' AWS Glue enregistrement. L'objet est ResultSet implémenté par chaque pilote, donc le comportement est spécifique au pilote que vous utilisez. Reportez-vous à la documentation destinée à votre JDBC chauffeur pour comprendre comment il effectue les conversions.

StreamingDataPreviewOptions structure

Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.

Champs
  • PollingTime : nombre (long), au moins égal à 10.

    Temps d'interrogation en millisecondes.

  • RecordPollingLimit : nombre (long), au moins égal à 1.

    Limite du nombre de registres interrogés.

AthenaConnectorSource structure

Indique un connecteur à une source de données Amazon Athena.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la connexion associée au connecteur.

  • ConnectorNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Type de connexion, tel que marketplace.athena ou custom.athena, désignant une connexion à un stocker de données Amazon Athena.

  • ConnectionTable— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la source de données.

  • SchemaNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom du groupe de journaux CloudWatch à partir duquel lire les données. Par exemple, /aws-glue/jobs/output.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Athena personnalisée.

JDBCConnectorSourcestructure

Spécifie un connecteur vers une source JDBC de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la connexion associée au connecteur.

  • ConnectorNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Type de connexion, tel que marketplace.jdbc ou custom.jdbc, désignant une connexion à un magasin de données. JDBC

  • AdditionalOptions – Un objet JDBCConnectorOptions.

    Options de connexion supplémentaires pour le connecteur.

  • ConnectionTable— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la source de données.

  • Query— Chaîne UTF -8, correspondant auCustom string pattern #60.

    La table ou la SQL requête à partir de laquelle obtenir les données. Vous pouvez préciser ConnectionTable ou query, mais pas les deux.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour la JDBC source personnalisée.

SparkConnectorSource structure

Indique un connecteur à une source de données Apache Spark.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la connexion associée au connecteur.

  • ConnectorNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom d'un connecteur qui facilite l'accès au magasin de données dans AWS Glue Studio.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Type de connexion, tel que marketplace.spark ou custom.spark, désignant une connexion à un stocker de données Apache Spark.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Options de connexion supplémentaires pour le connecteur.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Spark personnalisée.

CatalogSource structure

Spécifie un magasin de données dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

M Structure ySQLCatalog de la source

Spécifie une source SQL de données My dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

P Structure ostgreSQLCatalog de la source

Spécifie une source de SQL données Postgres dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

O Structure racleSQLCatalog de la source

Spécifie une source de données Oracle dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

icrosoftSQLServerCatalogSource Structure en M

Spécifie une source de données Microsoft SQL Server dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

CatalogKinesisSource structure

Spécifie une source de données Kinesis dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • WindowSize – Nombre (entier), pas plus qu'Aucun.

    Durée de traitement de chaque micro lot.

  • DetectSchema – Booléen.

    Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • StreamingOptions – Un objet KinesisStreamingSourceOptions.

    Options supplémentaires pour la source de données en streaming Kinesis.

  • DataPreviewOptions – Un objet StreamingDataPreviewOptions.

    Options supplémentaires pour la prévisualisation des données.

DirectKinesisSource structure

Indique une source de données Amazon Kinesis directe.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • WindowSize – Nombre (entier), pas plus qu'Aucun.

    Durée de traitement de chaque micro lot.

  • DetectSchema – Booléen.

    Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.

  • StreamingOptions – Un objet KinesisStreamingSourceOptions.

    Options supplémentaires pour la source de données en streaming Kinesis.

  • DataPreviewOptions – Un objet StreamingDataPreviewOptions.

    Options supplémentaires pour la prévisualisation des données.

KinesisStreamingSourceOptions structure

Options supplémentaires pour la source de données Amazon Kinesis streaming.

Champs
  • EndpointUrl— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Celui du URL point de terminaison Kinesis.

  • StreamName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom du flux de données Kinesis.

  • Classification— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Une classification facultative.

  • Delimiter— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique le caractère délimiteur.

  • StartingPosition— Chaîne UTF -8 (valeurs valides : latest="LATEST" | | trim_horizon="TRIM_HORIZON" earliest="EARLIEST" |timestamp="TIMESTAMP").

    La position de départ dans le flux de données Kinesis à partir duquel lire les données. Les valeurs possibles sont"latest", "trim_horizon""earliest", ou une chaîne d'horodatage au UTC format du modèle yyyy-mm-ddTHH:MM:SSZ (où Z représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00-04:00 «). La valeur par défaut est "latest".

    Remarque : L'utilisation d'une valeur qui est une chaîne d'horodatage au UTC format « startingPosition » n'est prise en charge que pour AWS Glue la version 4.0 ou ultérieure.

  • MaxFetchTimeInMs – Nombre (long), pas plus qu'Aucun.

    Durée maximale pendant laquelle l'exécuteur de tâches lit les enregistrements du lot en cours à partir du flux de données Kinesis, spécifiée en millisecondes (ms). Plusieurs GetRecords API appels peuvent être effectués pendant cette période. La valeur par défaut est 1000.

  • MaxFetchRecordsPerShard – Nombre (long), pas plus qu'Aucun.

    Le nombre maximum d'enregistrements à récupérer par partition dans le flux de données Kinesis par microbatch. Remarque : le client peut dépasser cette limite si la tâche de streaming a déjà lu des enregistrements supplémentaires provenant de Kinesis (lors du même appel get-records). Si elle MaxFetchRecordsPerShard doit être stricte, elle doit être un multiple deMaxRecordPerRead. La valeur par défaut est 100000.

  • MaxRecordPerRead – Nombre (long), pas plus qu'Aucun.

    Nombre maximal d'enregistrements à extraire du flux de données Kinesis dans chaque opération getRecords . La valeur par défaut est 10000.

  • AddIdleTimeBetweenReads – Booléen.

    Ajoute un délai entre deux getRecords opérations consécutives. La valeur par défaut est "False". Cette option n’est configurable que pour Glue version 2.0 et ultérieure.

  • IdleTimeBetweenReadsInMs – Nombre (long), pas plus qu'Aucun.

    Le délai minimum entre deux getRecords opérations consécutives, spécifié en ms. La valeur par défaut est 1000. Cette option n’est configurable que pour Glue version 2.0 et ultérieure.

  • DescribeShardInterval – Nombre (long), pas plus qu'Aucun.

    Intervalle de temps minimum entre deux ListShards API appels avant que votre script envisage de repartager. La valeur par défaut est 1s.

  • NumRetries – Nombre (entier), pas plus qu'Aucun.

    Nombre maximal de tentatives pour les demandes Kinesis Data API Streams. La valeur par défaut est 3.

  • RetryIntervalMs – Nombre (long), pas plus qu'Aucun.

    Période de latence (spécifiée en ms) avant de réessayer l'appel Kinesis Data Streams. API La valeur par défaut est 1000.

  • MaxRetryIntervalMs – Nombre (long), pas plus qu'Aucun.

    Durée maximale (spécifiée en ms) entre deux tentatives d'un appel Kinesis Data Streams. API La valeur par défaut est 10000.

  • AvoidEmptyBatches – Booléen.

    Évite de créer une tâche de micro-lot vide en vérifiant les données non lues dans le flux de données Kinesis avant le démarrage du lot. La valeur par défaut est "False".

  • StreamArn— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom de ressource Amazon (ARN) du flux de données Kinesis.

  • RoleArn— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de ressource Amazon (ARN) du rôle à assumer à l'aide du AWS Security Token Service (AWSSTS). Ce rôle doit disposer des autorisations nécessaires pour décrire ou lire des registres pour le flux de données Kinesis. Vous devez utiliser ce paramètre lorsque vous accédez à un flux de données dans un autre compte. Utilisez conjointement avec "awsSTSSessionName".

  • RoleSessionName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Identifiant de la session assumant le rôle utilisant AWSSTS. Vous devez utiliser ce paramètre lorsque vous accédez à un flux de données dans un autre compte. Utilisez conjointement avec "awsSTSRoleARN".

  • AddRecordTimestamp— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Lorsque cette option est définie sur « true », la sortie de données contient une colonne supplémentaire nommée « __src_timestamp » qui indique l'heure à laquelle l'enregistrement correspondant est reçu par le flux. La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue la version 4.0 ou ultérieure.

  • EmitConsumerLagMetrics— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Lorsque cette option est définie sur « true », pour chaque lot, elle émet les métriques correspondant à la durée comprise entre le plus ancien enregistrement reçu par le flux et l'heure AWS Glue à laquelle il arrive CloudWatch. Le nom de la métrique est « glue.driver.streaming ». maxConsumerLagInMs». La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue version 4.0 ou ultérieure.

  • StartingTimestamp— UTF -8 chaînes.

    L'horodatage de l'enregistrement dans le flux de données Kinesis à partir duquel les données doivent être lues. Les valeurs possibles sont une chaîne d'horodatage au UTC format du modèle yyyy-mm-ddTHH:MM:SSZ (où Z représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00 + 08:00 «).

CatalogKafkaSource structure

Indique un stocker de données Apache Kafka dans le catalogue de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • WindowSize – Nombre (entier), pas plus qu'Aucun.

    Durée de traitement de chaque micro lot.

  • DetectSchema – Booléen.

    Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • StreamingOptions – Un objet KafkaStreamingSourceOptions.

    Indique les options de streaming.

  • DataPreviewOptions – Un objet StreamingDataPreviewOptions.

    Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.

DirectKafkaSource structure

Indique un stocker de données Apache Kafka.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • StreamingOptions – Un objet KafkaStreamingSourceOptions.

    Indique les options de streaming.

  • WindowSize – Nombre (entier), pas plus qu'Aucun.

    Durée de traitement de chaque micro lot.

  • DetectSchema – Booléen.

    Indique s'il faut déterminer automatiquement le schéma à partir des données entrantes.

  • DataPreviewOptions – Un objet StreamingDataPreviewOptions.

    Indique les options liées à la prévisualisation des données pour visualiser un échantillon de vos données.

KafkaStreamingSourceOptions structure

Options supplémentaires pour streaming.

Champs
  • BootstrapServers— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Une liste de serveurs bootstrapURLs, par exemple, commeb-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Cette option doit être spécifiée dans l'APIappel ou définie dans les métadonnées de la table dans le catalogue de données.

  • SecurityProtocol— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le protocole utilisé pour communiquer avec les agents. Les valeurs possibles sont "SSL" ou "PLAINTEXT".

  • ConnectionName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom de la connexion.

  • TopicName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de rubrique tel que spécifié dans Apache Kafka. Vous devez Indiquer au moins un des éléments suivants : "topicName", "assign" ou "subscribePattern".

  • Assign— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Les TopicPartitions spécifiques à consommer. Vous devez Indiquer au moins un des éléments suivants : "topicName", "assign" ou "subscribePattern".

  • SubscribePattern— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Une chaîne d'expression rationnelle Java qui identifie la liste de rubriques à laquelle vous souhaitez vous abonner. Vous devez Indiquer au moins un des éléments suivants : "topicName", "assign" ou "subscribePattern".

  • Classification— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Une classification facultative.

  • Delimiter— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique le caractère délimiteur.

  • StartingOffsets— Chaîne UTF -8, correspondant auCustom string pattern #59.

    La position de départ dans la rubrique Kafka à partir de laquelle lire les données. Les valeurs possibles sont "earliest" ou "latest". La valeur par défaut est "latest".

  • EndingOffsets— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le point de fin lorsqu'une requête par lots est terminée. Les valeurs possibles sont soit une chaîne, "latest" soit une JSON chaîne spécifiant un décalage de fin pour chacune d'entre ellesTopicPartition.

  • PollTimeoutMs – Nombre (long), pas plus qu'Aucun.

    Le délai d'attente en millisecondes pour interroger les données de Kafka dans les exécuteurs de tâches Spark. La valeur par défaut est 512.

  • NumRetries – Nombre (entier), pas plus qu'Aucun.

    Le nombre de nouvelles tentatives avant de ne pas récupérer les décalages Kafka. La valeur par défaut est 3.

  • RetryIntervalMs – Nombre (long), pas plus qu'Aucun.

    Temps d'attente en millisecondes avant d'essayer de récupérer les décalages Kafka. La valeur par défaut est 10.

  • MaxOffsetsPerTrigger – Nombre (long), pas plus qu'Aucun.

    La limite de taux sur le nombre maximal de décalages qui sont traités par intervalle de déclenchement. Le nombre total spécifié de décalages est réparti proportionnellement entre les topicPartitions des différents volumes. La valeur par défaut est null, ce qui signifie que le consommateur lit tous les décalages jusqu'au dernier décalage connu.

  • MinPartitions – Nombre (entier), pas plus qu'Aucun.

    Le nombre minimum de partitions à lire à partir de Kafka. La valeur par défaut est nulle, ce qui signifie que le nombre de partitions Spark est égal au nombre de partitions Kafka.

  • IncludeHeaders – Booléen.

    Indique s'il faut inclure les en-têtes Kafka. Lorsque l'option est définie sur « true » (vrai), la sortie de données contiendra une colonne supplémentaire nommée « glue_streaming_kafka_headers » avec le type Array[Struct(key: String, value: String)]. La valeur définie par défaut est « false ». Cette option n'est disponible que dans AWS Glue la version 3.0 ou ultérieure.

  • AddRecordTimestamp— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Lorsque cette option est définie sur « true », la sortie de données contient une colonne supplémentaire nommée « __src_timestamp » qui indique l'heure à laquelle l'enregistrement correspondant est reçu par la rubrique. La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue la version 4.0 ou ultérieure.

  • EmitConsumerLagMetrics— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Lorsque cette option est définie sur « vrai », pour chaque lot, elle émet les métriques correspondant à la durée comprise entre le plus ancien enregistrement reçu par le sujet et l'heure AWS Glue à laquelle il arrive CloudWatch. Le nom de la métrique est « glue.driver.streaming ». maxConsumerLagInMs». La valeur par défaut est « false ». Cette option est prise en charge dans AWS Glue version 4.0 ou ultérieure.

  • StartingTimestamp— UTF -8 chaînes.

    L'horodatage de l'enregistrement dans la rubrique Kafka à partir duquel les données doivent être lues. Les valeurs possibles sont une chaîne d'horodatage au UTC format du modèle yyyy-mm-ddTHH:MM:SSZ (où Z représente un décalage de UTC fuseau horaire avec un +/-). Par exemple : « 2023-04-04T 08:00:00 + 08:00 «).

    Seul StartingTimestamp ou StartingOffsets doit être défini.

RedshiftSource structure

Indique un stocker de données Amazon Redshift.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom du stocker de données Amazon Redshift.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Table de base de données à lire.

  • RedshiftTmpDir— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.

  • TmpDirIAMRole— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le IAM rôle doté d'autorisations.

AmazonRedshiftSource structure

Indique une source Amazon Redshift.

Champs

AmazonRedshiftNodeData structure

Indique un nœud Amazon Redshift.

Champs
  • AccessType— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Le type d'accès pour la connexion Redshift. Il peut s'agir d'une connexion directe ou de connexions au catalogue.

  • SourceType— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Le type de source pour spécifier si une table spécifique est la source ou une requête personnalisée.

  • Connection – Un objet Option.

    La AWS Glue connexion au cluster Redshift.

  • Schema – Un objet Option.

    Le nom du schéma Redshift lorsque vous travaillez avec une connexion directe.

  • Table – Un objet Option.

    Le nom de la table Redshift lorsque vous travaillez avec une connexion directe.

  • CatalogDatabase – Un objet Option.

    Nom de la base de AWS Glue données du catalogue de données lorsque vous travaillez avec un catalogue de données.

  • CatalogTable – Un objet Option.

    Le nom de la table du catalogue de AWS Glue données lorsque vous travaillez avec un catalogue de données.

  • CatalogRedshiftSchema— UTF -8 chaînes.

    Le nom du schéma Redshift lorsque vous travaillez avec un catalogue de données.

  • CatalogRedshiftTable— UTF -8 chaînes.

    Table de base de données à lire.

  • TempDir— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.

  • IamRole – Un objet Option.

    Facultatif. Le nom de rôle utilisé lors de la connexion à S3. Le IAM rôle sera remplacé par défaut par le rôle correspondant à la tâche lorsque ce champ est laissé vide.

  • AdvancedOptions – Un tableau d'objets AmazonRedshiftAdvancedOption.

    Les valeurs facultatives lors de la connexion au cluster Redshift.

  • SampleQuery— UTF -8 chaînes.

    SQLUtilisé pour récupérer les données d'une source Redshift lorsqu' SourceTypeil s'agit d'une « requête ».

  • PreAction— UTF -8 chaînes.

    Le SQL fichier utilisé avant l'exécution d'un MERGE ou APPEND avec upsert.

  • PostAction— UTF -8 chaînes.

    Le SQL fichier utilisé avant l'exécution d'un MERGE ou APPEND avec upsert.

  • Action— UTF -8 chaînes.

    Indique comment l'écriture dans un cluster Redshift se fera.

  • TablePrefix— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Indique le préfixe d'une table.

  • Upsert – Booléen.

    L'action utilisée sur Redshift disparaît lorsque vous effectuez un. APPEND

  • MergeAction— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Action utilisée pour déterminer la manière dont un élément d'un MERGE récepteur Redshift sera géré.

  • MergeWhenMatched— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Action utilisée pour déterminer comment sera géré un enregistrement MERGE dans un récepteur Redshift lorsqu'un enregistrement existant correspond à un nouvel enregistrement.

  • MergeWhenNotMatched— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Action utilisée pour déterminer comment sera géré un enregistrement MERGE dans un récepteur Redshift lorsqu'un enregistrement existant ne correspond pas à un nouvel enregistrement.

  • MergeClause— UTF -8 chaînes.

    SQLUtilisé dans une fusion personnalisée pour traiter les enregistrements correspondants.

  • CrawlerConnection— UTF -8 chaînes.

    Indique le nom de la connexion associée à la table de catalogue utilisée.

  • TableSchema – Un tableau d'objets Option.

    Le tableau de sortie du schéma pour un nœud donné.

  • StagingTable— UTF -8 chaînes.

    Le nom de la table intermédiaire temporaire qui est utilisée lors d'une opération MERGE ou APPEND avec upsert.

  • SelectedColumns – Un tableau d'objets Option.

    La liste des noms de colonnes utilisés pour déterminer un enregistrement correspondant lors d'une opération MERGE ou APPEND avec upsert.

AmazonRedshiftAdvancedOption structure

Indique une valeur facultative lors de la connexion au cluster Redshift.

Champs
  • Key— UTF -8 chaînes.

    La clé de l'option de connexion supplémentaire.

  • Value— UTF -8 chaînes.

    La valeur de l'option de connexion supplémentaire.

Structure de l'option

Indique une valeur d'option.

Champs

CatalogSource Structure S3

Spécifie un magasin de données Amazon S3 dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Table de base de données à lire.

  • PartitionPredicate— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Les partitions satisfaisant à ce prédicat sont supprimées. Les fichiers qui se situent dans la période de conservation pour ces partitions ne sont pas supprimés. Valeur définie sur "" – vide par défaut.

  • AdditionalOptions – Un objet S3 SourceAdditionalOptions.

    Indique des options de connexion supplémentaires.

SourceAdditionalOptions Structure S3

Indique des options de connexion supplémentaires pour le stocker de données Amazon S3.

Champs
  • BoundedSize – Nombre (long).

    Définit la limite supérieure de la dimension cible du jeu de données en octets à traiter.

  • BoundedFiles – Nombre (long).

    Définit la limite supérieure du nombre cible de fichiers à traiter.

CsvSource Structure S3

Spécifie un magasin de données à valeur séparée par des commandes (CSV) stocké dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    Une liste de chemins Amazon S3 à lire.

  • CompressionType— Chaîne UTF -8 (valeurs valides : gzip="GZIP" |bzip2="BZIP2").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • Exclusions— Un tableau de UTF -8 chaînes.

    Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.

  • GroupSize— Chaîne UTF -8, correspondant auCustom string pattern #59.

    La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée, "groupFiles" doit être défini sur "inPartition" pour que cela prenne effet.

  • GroupFiles— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur "none".

  • Recurse – Booléen.

    Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.

  • MaxBand – Nombre (entier), pas plus qu'Aucun.

    Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.

  • MaxFilesInBand – Nombre (entier), pas plus qu'Aucun.

    Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.

  • AdditionalOptions – Un objet S3 DirectSourceAdditionalOptions.

    Indique des options de connexion supplémentaires.

  • SeparatorObligatoire : chaîne UTF -8 (valeurs valides : comma="COMMA" | ctrla="CTRLA" | | pipe="PIPE" semicolon="SEMICOLON" |tab="TAB").

    Indique le caractère délimiteur. La valeur par défaut est une virgule : « , », mais tout autre caractère peut être spécifié.

  • Escaper— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique le caractère à utiliser pour l'échappement. Cette option est utilisée uniquement lors de la lecture de CSV fichiers. La valeur par défaut est none. Si cette option est activée, le caractère suivant est immédiatement utilisé tel quel, sauf pour un petit ensemble d'échappements connus (\n, \r, \t et \0).

  • QuoteCharObligatoire : chaîne UTF -8 (valeurs valides : quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" |disabled="DISABLED").

    Indique le caractère à utiliser pour les guillemets. La valeur par défaut est les guillemets doubles : '"'. Définissez ce champ sur -1 pour désactiver entièrement les guillemets.

  • Multiline – Booléen.

    Une valeur booléenne qui indique si un même registre peut couvrir plusieurs lignes. Cela peut se produire lorsqu'un champ contient un caractère de nouvelle ligne. Vous devez définir cette option sur « VRAI » si aucun registre ne s'étend sur plusieurs lignes. La valeur par défaut est False, qui permet un fractionnement en fichiers plus intense pendant l'analyse.

  • WithHeader – Booléen.

    Une valeur booléenne qui indique s'il convient de traiter la première ligne comme un en-tête. La valeur par défaut est False.

  • WriteHeader – Booléen.

    Une valeur booléenne qui indique s'il faut écrire l'en-tête dans la sortie. La valeur par défaut est True.

  • SkipFirst – Booléen.

    Une valeur booléenne qui indique s'il faut ignorer la première ligne de données. La valeur par défaut est False.

  • OptimizePerformance – Booléen.

    Valeur booléenne qui indique s'il faut utiliser le SIMD CSV lecteur avancé avec les formats de mémoire en colonnes basés sur Apache Arrow. Disponible uniquement dans AWS Glue la version 3.0.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour la CSV source S3.

irectJDBCSource Structure en D

Spécifie la connexion directe à la JDBC source.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la connexion JDBC source.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La base de données de la connexion JDBC source.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le tableau de la connexion JDBC source.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de connexion de la JDBC source.

  • ConnectionTypeObligatoire : chaîne UTF -8 (valeurs valides : sqlserver | mysql | | oracle postgresql |redshift).

    Type de connexion de la JDBC source.

  • RedshiftTmpDir— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le répertoire temporaire de la source JDBC Redshift.

DirectSourceAdditionalOptions Structure S3

Indique des options de connexion supplémentaires pour le stocker de données Amazon S3.

Champs
  • BoundedSize – Nombre (long).

    Définit la limite supérieure de la dimension cible du jeu de données en octets à traiter.

  • BoundedFiles – Nombre (long).

    Définit la limite supérieure du nombre cible de fichiers à traiter.

  • EnableSamplePath – Booléen.

    Définit l'option d'activation d'un exemple de chemin.

  • SamplePath— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Si cette option est activée, elle indique l'exemple de chemin.

JsonSource Structure S3

Spécifie un magasin de JSON données stocké dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    Une liste de chemins Amazon S3 à lire.

  • CompressionType— Chaîne UTF -8 (valeurs valides : gzip="GZIP" |bzip2="BZIP2").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • Exclusions— Un tableau de UTF -8 chaînes.

    Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.

  • GroupSize— Chaîne UTF -8, correspondant auCustom string pattern #59.

    La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée, "groupFiles" doit être défini sur "inPartition" pour que cela prenne effet.

  • GroupFiles— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur "none".

  • Recurse – Booléen.

    Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.

  • MaxBand – Nombre (entier), pas plus qu'Aucun.

    Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.

  • MaxFilesInBand – Nombre (entier), pas plus qu'Aucun.

    Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.

  • AdditionalOptions – Un objet S3 DirectSourceAdditionalOptions.

    Indique des options de connexion supplémentaires.

  • JsonPath— Chaîne UTF -8, correspondant auCustom string pattern #59.

    JsonPath Chaîne définissant les JSON données.

  • Multiline – Booléen.

    Une valeur booléenne qui indique si un même registre peut couvrir plusieurs lignes. Cela peut se produire lorsqu'un champ contient un caractère de nouvelle ligne. Vous devez définir cette option sur « VRAI » si aucun registre ne s'étend sur plusieurs lignes. La valeur par défaut est False, qui permet un fractionnement en fichiers plus intense pendant l'analyse.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour la JSON source S3.

ParquetSource Structure S3

Indique un stocker de données Apache Parquet stocké dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    Une liste de chemins Amazon S3 à lire.

  • CompressionType— Chaîne UTF -8 (valeurs valides : snappy="SNAPPY" | | lzo="LZO" | gzip="GZIP" uncompressed="UNCOMPRESSED" |none="NONE").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • Exclusions— Un tableau de UTF -8 chaînes.

    Chaîne contenant une JSON liste de modèles globulaires de style Unix à exclure. Par exemple, « [\" **.pdf \ "] » exclut tous les PDF fichiers.

  • GroupSize— Chaîne UTF -8, correspondant auCustom string pattern #59.

    La dimension du groupe cible, en octets. La valeur par défaut est calculée en fonction de la dimension des données en entrée et de la dimension de votre cluster. Lorsqu'il y a moins de 50 000 fichiers en entrée, "groupFiles" doit être défini sur "inPartition" pour que cela prenne effet.

  • GroupFiles— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le groupement de fichiers est activé par défaut lorsque l'entrée contient plus de 50 000 fichiers. Pour activer le regroupement avec moins de 50 000 fichiers, définissez ce paramètre sur « inPartition ». Pour désactiver le groupement lorsqu'il y a plus de 50 000 fichiers, définissez ce paramètre sur "none".

  • Recurse – Booléen.

    Si ce paramètre est défini sur « VRAI », les fichiers sont lus de manière récursive dans tous les sous-répertoires des chemins spécifiés.

  • MaxBand – Nombre (entier), pas plus qu'Aucun.

    Cette option permet de contrôler la durée, en millisecondes, au delà de laquelle la liste S3 est susceptible d'être cohérente. Les fichiers dont l'horodatage des modifications se situe dans les dernières maxBand millisecondes sont suivis, en particulier lors de leur utilisation, afin de tenir compte de la cohérence JobBookmarks éventuelle d'Amazon S3. La plupart des utilisateurs n'ont pas besoin de définir cette option. La valeur par défaut est 900 000 millisecondes, soit 15 minutes.

  • MaxFilesInBand – Nombre (entier), pas plus qu'Aucun.

    Cette option indique le nombre maximum de fichiers à enregistrer au cours des dernières maxBand secondes. Si ce nombre est dépassé, les fichiers supplémentaires sont ignorés et traités dans l'exécution de tâche suivante.

  • AdditionalOptions – Un objet S3 DirectSourceAdditionalOptions.

    Indique des options de connexion supplémentaires.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source S3 Parquet.

DeltaSource Structure S3

Spécifie une source de données Delta Lake stockée dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la source de Delta Lake.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    Une liste de chemins Amazon S3 à lire.

  • AdditionalDeltaOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • AdditionalOptions – Un objet S3 DirectSourceAdditionalOptions.

    Indique les options supplémentaires du connecteur.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Delta Lake.

CatalogDeltaSource Structure S3

Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données. La source de données doit être stockée dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la source de données Delta Lake.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • AdditionalDeltaOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Delta Lake.

CatalogDeltaSource structure

Spécifie une source de données Delta Lake enregistrée dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la source de données Delta Lake.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • AdditionalDeltaOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Delta Lake.

HudiSource Structure S3

Spécifie une source de données Hudi stockée dans. Amazon S3

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source Hudi.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    Une liste de chemins Amazon S3 à lire.

  • AdditionalHudiOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • AdditionalOptions – Un objet S3 DirectSourceAdditionalOptions.

    Indique les options supplémentaires du connecteur.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Hudi.

CatalogHudiSource Structure S3

Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données. La source de données Hudi doit être stockée dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données Hudi.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • AdditionalHudiOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Hudi.

CatalogHudiSource structure

Spécifie une source de données Hudi enregistrée dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données Hudi.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

  • AdditionalHudiOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la source Hudi.

D Structure ynamoDBCatalog de la source

Spécifie une source de données DynamoDB dans AWS Glue le catalogue de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

RelationalCatalogSource structure

Indique une source de données de base de données relationnelle dans le catalogue de données AWS Glue .

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de la source de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la base de données à partir de laquelle lire les données.

JDBCConnectorTargetstructure

Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la connexion associée au connecteur.

  • ConnectionTableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table dans la cible de données.

  • ConnectorNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom d'un connecteur qui sera utilisé.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Type de connexion, tel que marketplace.jdbc ou custom.jdbc, désignant une connexion à une cible de données. JDBC

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Options de connexion supplémentaires pour le connecteur.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour la JDBC cible.

SparkConnectorTarget structure

Indique une cible qui utilise un connecteur Apache Spark.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • ConnectionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom d'une connexion pour un connecteur Apache Spark.

  • ConnectorNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom d'un connecteur Apache Spark.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Type de connexion, tel que marketplace.spark ou custom.spark, désignant une connexion à un stocker de données Apache Spark.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Options de connexion supplémentaires pour le connecteur.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la cible Spark personnalisée.

BasicCatalogTarget structure

Spécifie une cible qui utilise une table AWS Glue de catalogue de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de votre cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Les clés de partition utilisées pour distribuer les données sur plusieurs partitions ou partitions en fonction d'une clé ou d'un ensemble de clés spécifique.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La base de données où se trouve la table que vous souhaitez utiliser comme cible. Cette base de données doit déjà exister dans le catalogue de données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La table qui définit le schéma de vos données de sortie. Cette table doit déjà exister dans le catalogue de données..

M Structure de la ySQLCatalog cible

Spécifie une cible qui utilise MySQL.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

P Structure de la ostgreSQLCatalog cible

Spécifie une cible qui utilise PostgresSQL.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

O Structure racleSQLCatalog cible

Spécifie une cible qui utilise OracleSQL.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

icrosoftSQLServerCatalogTarget Structure en M

Spécifie une cible qui utilise MicrosoftSQL.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

RedshiftTarget structure

Indique une cible qui utilise Amazon Redshift.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

  • RedshiftTmpDir— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Chemin Amazon S3 où les données temporaires peuvent être stockées lors de la copie à partir de la base de données.

  • TmpDirIAMRole— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le IAM rôle doté d'autorisations.

  • UpsertRedshiftOptions – Un objet UpsertRedshiftTargetOptions.

    Jeu d'options permettant de configurer une opération de mise à jour/insertion lors de l'écriture vers une cible Redshift.

AmazonRedshiftTarget structure

Indique une cible Amazon Redshift.

Champs
  • Name— Chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible Amazon Redshift.

  • Data – Un objet AmazonRedshiftNodeData.

    Indique les données du nœud cible Amazon Redshift.

  • Inputs— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

UpsertRedshiftTargetOptions structure

Options permettant de configurer une opération de mise à jour/insertion lors de l'écriture vers une cible Redshift.

Champs
  • TableLocation— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Emplacement physique de la table Redshift.

  • ConnectionName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Nom de la connexion à utiliser pour écrire dans Redshift.

  • UpsertKeys— Un tableau de UTF -8 chaînes.

    Clés utilisées pour déterminer si une opération de mise à jour ou d'insertion est nécessaire.

CatalogTarget Structure S3

Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • SchemaChangePolicy – Un objet CatalogSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

GlueParquetTarget Structure S3

Indique une cible de données qui écrit sur Amazon S3 dans un stockage en colonnes Apache Parquet.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Un seul chemin Amazon S3 sur lequel écrire.

  • Compression— Chaîne UTF -8 (valeurs valides : snappy="SNAPPY" | | lzo="LZO" | gzip="GZIP" uncompressed="UNCOMPRESSED" |none="NONE").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • SchemaChangePolicy – Un objet DirectSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

CatalogSchemaChangePolicy structure

Une politique qui indique des comportements de mise à jour pour l'crawler.

Champs
  • EnableUpdateCatalog – Booléen.

    S'il faut utiliser ou non le comportement de mise à jour spécifié lorsque l'crawler détecte un schéma modifié.

  • UpdateBehavior— Chaîne UTF -8 (valeurs valides : UPDATE_IN_DATABASE |LOG).

    Comportement de mise à jour lorsque le crawler détecte un schéma modifié.

DirectTarget Structure S3

Indique une cible de données qui écrit dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Un seul chemin Amazon S3 sur lequel écrire.

  • Compression— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • FormatObligatoire : chaîne UTF -8 (valeurs valides : json="JSON" csv="CSV" | avro="AVRO" | | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Définit le format de sortie des données pour la cible.

  • SchemaChangePolicy – Un objet DirectSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

HudiCatalogTarget Structure S3

Spécifie une cible qui écrit dans une source de données Hudi du catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • AdditionalOptionsobligatoire : tableau de mappage de paires clé-valeur.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires pour le connecteur.

  • SchemaChangePolicy – Un objet CatalogSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

HudiDirectTarget Structure S3

Spécifie une cible qui écrit dans une source de données Hudi en Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le chemin d'accès Amazon S3 de votre source de données Hudi sur laquelle écrire.

  • CompressionObligatoire : chaîne UTF -8 (valeurs valides : gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • FormatObligatoire : chaîne UTF -8 (valeurs valides : json="JSON" csv="CSV" | avro="AVRO" | | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Définit le format de sortie des données pour la cible.

  • AdditionalOptionsobligatoire : tableau de mappage de paires clé-valeur.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires pour le connecteur.

  • SchemaChangePolicy – Un objet DirectSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

DeltaCatalogTarget Structure S3

Spécifie une cible qui écrit dans une source de données Delta Lake dans le catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires pour le connecteur.

  • SchemaChangePolicy – Un objet CatalogSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

DeltaDirectTarget Structure S3

Spécifie une cible qui écrit dans une source de données de Delta Lake dans Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le chemin d'accès Amazon S3 de votre source de données Delta Lake sur laquelle écrire.

  • CompressionObligatoire : chaîne UTF -8 (valeurs valides : uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Indique la manière dont les données sont comprimées. Ce n'est généralement pas nécessaire si le fichier de données a une extension standard. Les valeurs possibles sont "gzip" et "bzip").

  • FormatObligatoire : chaîne UTF -8 (valeurs valides : json="JSON" csv="CSV" | avro="AVRO" | | orc="ORC" | parquet="PARQUET" hudi="HUDI" |delta="DELTA").

    Définit le format de sortie des données pour la cible.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique des options de connexion supplémentaires pour le connecteur.

  • SchemaChangePolicy – Un objet DirectSchemaChangePolicy.

    Une politique qui indique les évolutions de mise à jour pour le crawler.

DirectSchemaChangePolicy structure

Une politique qui indique des comportements de mise à jour pour l'crawler.

Champs
  • EnableUpdateCatalog – Booléen.

    S'il faut utiliser ou non le comportement de mise à jour spécifié lorsque l'crawler détecte un schéma modifié.

  • UpdateBehavior— Chaîne UTF -8 (valeurs valides : UPDATE_IN_DATABASE |LOG).

    Comportement de mise à jour lorsque le crawler détecte un schéma modifié.

  • Table— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique la table de la base de données à laquelle s'applique la politique de modification du schéma.

  • Database— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique la base de données à laquelle s'applique la politique de modification du schéma.

ApplyMapping structure

Indique une transformation qui mappe les clés de propriétés de données de la source de données aux clés de propriété de données de la cible de données. Vous pouvez renommer les clés, modifier leur type de données et choisir les clés à supprimer du jeu de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • MappingObligatoire : Un tableau d'objets Mappage.

    Indique le mappage des clés de propriétés de données de la source de données avec les clés de propriétés de données de la cible de données.

Structure de mappage

Indique le mappage des clés de propriété de données.

Champs
  • ToKey— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Après le mappage d'application, quel nom donner à la colonne. Peut être similaire à FromPath.

  • FromPath— Un tableau de UTF -8 chaînes.

    La table ou la colonne à modifier.

  • FromType— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le type des données à modifier.

  • ToType— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Le type de données sous lequel les données doivent être modifiées.

  • Dropped – Booléen.

    Si ce paramètre est défini sur « VRAI », la colonne est supprimée.

  • Children – Un tableau d'objets Mappage.

    S'applique uniquement aux structures de données imbriquées. Si vous souhaitez modifier la structure parente, mais également l'un de ses enfants, vous pouvez remplir cette structure de données. C'est aussi Mapping, mais son FromPath sera le FromPath du parent plus le FromPath provenant de cette structure.

    Pour la partie enfants, supposons que vous ayez la structure suivante :

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Vous pouvez Indiquer un Mapping qui se présente sous la forme suivante :

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields structure

Indique une transformation qui choisit les clés de propriété de données que vous souhaitez conserver.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    JSONChemin d'accès à une variable de la structure de données.

DropFields structure

Indique une transformation qui choisit les clés de propriété de données que vous souhaitez supprimer.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    JSONChemin d'accès à une variable de la structure de données.

RenameField structure

Indique une transformation qui renomme une clé de propriété de données unique.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • SourcePathObligatoire : un tableau de UTF -8 chaînes.

    JSONChemin d'accès à une variable de la structure de données pour les données sources.

  • TargetPathObligatoire : un tableau de UTF -8 chaînes.

    JSONChemin d'accès à une variable de la structure de données pour les données cibles.

Structure Spigot

Indique une transformation qui écrit des échantillons de données dans un compartiment Amazon S3.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Un chemin dans Amazon S3 où la transformation écrira un sous-ensemble d'enregistrements de l'ensemble de données dans un JSON fichier d'un compartiment Amazon S3.

  • Topk – Nombre (entier), 100 au maximum.

    Indique un certain nombre de registres à écrire à partir du début du jeu de données.

  • Prob – Nombre (double), 1 au maximum.

    La probabilité (valeur décimale ayant une valeur maximale de 1) de prélèvement d'un registre donné. La valeur 1 indique que chaque ligne lue à partir du jeu de données doit être incluse dans l'exemple de sortie.

Structure Join

Indique une transformation qui joint deux jeux de données en un jeu de données à l'aide d'une phrase de comparaison sur les clés de propriété de données spécifiées. Vous pouvez utiliser des jointures internes (ou intérieures), externes (ou extérieures), gauche, droite, semi gauche et anti gauche.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • JoinTypeObligatoire : chaîne UTF -8 (valeurs valides : equijoin="EQUIJOIN" left="LEFT" | | right="RIGHT" | outer="OUTER" leftsemi="LEFT_SEMI" |leftanti="LEFT_ANTI").

    Indique le type de jointure à effectuer sur les jeux de données.

  • ColumnsObligatoire : Tableau d'objets JoinColumn, 2 structures minimum et 2 structures maximum.

    Liste des deux colonnes à joindre.

JoinColumn structure

Indique une colonne à joindre.

Champs
  • FromObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La colonne à joindre.

  • KeysObligatoire : un tableau de UTF -8 chaînes.

    La clé de la colonne à joindre.

SplitFields structure

Indique une transformation qui divise les clés de propriété de données en deux DynamicFrames. Le résultat est une collection de DynamicFrames : une avec les clés de propriété de données sélectionnées, et une autre avec les clés de propriété de données restantes.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • PathsObligatoire : un tableau de UTF -8 chaînes.

    JSONChemin d'accès à une variable de la structure de données.

SelectFromCollection structure

Indique une transformation qui en choisit une DynamicFrame provenant d'une collection de DynamicFrames. Le résultat est le DynamicFrame sélectionné

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • IndexObligatoire : Nombre (entier), pas plus qu'Aucun.

    L'index du DynamicFrame à sélectionner.

FillMissingValues structure

Précise une transformation qui localise les registres dans le jeu de données dont les valeurs sont manquantes et ajoute un nouveau champ avec une valeur déterminée par imputation. Le jeu de données source est utilisé pour entraîner le modèle de machine learning (ML) qui détermine la valeur manquante.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • ImputedPathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    JSONChemin d'accès à une variable de la structure de données de l'ensemble de données imputé.

  • FilledPath— Chaîne UTF -8, correspondant auCustom string pattern #59.

    JSONChemin d'accès à une variable dans la structure de données de l'ensemble de données rempli.

Structure Filtre

Indique une transformation qui divise un jeu de données en deux, en fonction d'une condition de filtre.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • LogicalOperatorObligatoire : chaîne UTF -8 (valeurs valides : AND |OR).

    L'opérateur utilisé pour filtrer les lignes en comparant la valeur clé à une valeur spécifiée.

  • FiltersObligatoire : Un tableau d'objets FilterExpression.

    Indique une expression de filtre.

FilterExpression structure

Indique une expression de filtre.

Champs
  • OperationObligatoire : chaîne UTF -8 (valeurs valides : EQ LT | GT | | LTE | GTE REGEX |ISNULL).

    Le type d'opération à effectuer dans l'expression.

  • Negated – Booléen.

    Indique si l'expression doit être annulée.

  • ValuesObligatoire : Un tableau d'objets FilterValue.

    Une liste de valeurs de filtre.

FilterValue structure

Représente une entrée unique dans la liste de valeurs de FilterExpression.

Champs
  • TypeObligatoire : chaîne UTF -8 (valeurs valides : COLUMNEXTRACTED |CONSTANT).

    Le type de valeur de filtre.

  • ValueObligatoire : un tableau de UTF -8 chaînes.

    La valeur à associer.

CustomCode structure

Indique une transformation qui utilise le code personnalisé que vous fournissez pour effectuer la transformation des données. La sortie est une collection de DynamicFrames.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.

    Les entrées de données identifiées par leurs noms de nœuds.

  • CodeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #52.

    Le code personnalisé utilisé pour effectuer la transformation des données.

  • ClassNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom défini pour la classe de nœuds de code personnalisée.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la transformation du code personnalisé.

SQLStructure Spark

Spécifie une transformation dans laquelle vous entrez une SQL requête à l'aide de SQL la syntaxe Spark pour transformer les données. Le résultat est un DynamicFrame unique .

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.

    Les entrées de données identifiées par leurs noms de nœuds. Vous pouvez associer un nom de table à chaque nœud d'entrée à utiliser dans la SQL requête. Le nom que vous choisissez doit respecter les restrictions de SQL dénomination de Spark.

  • SqlQueryObligatoire : chaîne UTF -8, correspondant auCustom string pattern #60.

    SQLRequête qui doit utiliser SQL la syntaxe Spark et renvoyer un seul ensemble de données.

  • SqlAliasesObligatoire : Un tableau d'objets SqlAlias.

    Liste d’alias Un alias vous permet de spécifier le nom à utiliser SQL pour une entrée donnée. Par exemple, vous avez une source de données nommée « MyDataSource ». Si vous spécifiez From Alias as MyDataSource et as SqlName, alors dans votre SQL

    select * from SqlName

    et qui obtient des données de MyDataSource.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour la SQL transformation Spark.

SqlAlias structure

Représente une entrée unique dans la liste de valeurs de SqlAliases.

Champs
  • FromObligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.

    Une table ou une colonne d'une table.

  • AliasObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Un nom temporaire donné à une table ou à une colonne d'une table.

DropNullFields structure

Indique une transformation qui supprime les colonnes du jeu de données si toutes les valeurs de la colonne sont « nulles ». Par défaut, AWS Glue Studio reconnaît les objets nuls, mais certaines valeurs telles que les chaînes vides, les chaînes « nulles », les entiers -1 ou d'autres espaces réservés tels que les zéros ne sont pas automatiquement reconnues comme nulles.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • NullCheckBoxList – Un objet NullCheckBoxList.

    Une structure qui indique si certaines valeurs sont reconnues comme des valeurs null en vue de la suppression.

  • NullTextList – Un tableau d'objets NullValueField, 50 structures maximum.

    Structure qui spécifie une liste de NullValueField structures représentant une valeur nulle personnalisée telle que zéro ou une autre valeur utilisée comme espace réservé nul propre à l'ensemble de données.

    La transformation DropNullFields supprime les valeurs nulles personnalisées uniquement, si la valeur de l'espace réservé nul et du type de données correspondent aux données.

NullCheckBoxList structure

Indique si certaines valeurs sont reconnues comme des valeurs null en vue de la suppression.

Champs
  • IsEmpty – Booléen.

    Indique qu'une chaîne vide est considérée comme une valeur null.

  • IsNullString – Booléen.

    Indique qu'une valeur révélant le mot « null » est considérée comme une valeur null.

  • IsNegOne – Booléen.

    Indique qu'une valeur entière de -1 est considérée comme une valeur null.

NullValueField structure

Représente une valeur null personnalisée telle qu'un zéro ou une autre valeur utilisée comme espace réservé null unique pour le jeu de données.

Champs
  • ValueObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La valeur de l'espace réservé null.

  • DatatypeObligatoire : un objet Datatype.

    Le type de données de la valeur.

Structure Datatype

Une structure représentant le type de données de la valeur.

Champs

Structure Fusion

Indique une transformation qui fusionne une DynamicFrame avec une DynamicFrame intermédiaire basée sur les clés primaires spécifiées pour identifier les registres. Les registres en double (registres avec les mêmes clés primaires) ne sont pas dédupliqués.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • SourceObligatoire : chaîne UTF -8, correspondant auCustom string pattern #58.

    La source DynamicFrame qui sera fusionnée avec une DynamicFrame intermédiaire.

  • PrimaryKeysObligatoire : un tableau de UTF -8 chaînes.

    La liste des champs de clé primaire permettant de faire correspondre les registres des trames dynamiques source et intermédiaire.

Structure Union

Indique une transformation qui combine les lignes de deux jeux de données ou plus en un seul résultat.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins de 2 ou plus de 2 chaînes.

    Les entrées de l'ID du nœud dans la transformation.

  • UnionTypeObligatoire : chaîne UTF -8 (valeurs valides : ALL |DISTINCT).

    Indique le type de transformation Union.

    Spécifiez ALL de joindre toutes les lignes des sources de données au résultat DynamicFrame. L'union qui en résulte ne supprime pas les lignes en double.

    Spécifiez DISTINCT de supprimer les lignes dupliquées dans le résultat DynamicFrame.

PIIDetectionstructure

Spécifie une transformation qui identifie, supprime ou masque les PII données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de l'ID du nœud dans la transformation.

  • PiiTypeObligatoire : chaîne UTF -8 (valeurs valides : RowAudit | RowMasking | ColumnAudit |ColumnMasking).

    Indique le type de PIIDetection transformation.

  • EntityTypesToDetectObligatoire : un tableau de UTF -8 chaînes.

    Indique les types d'entités que la PIIDetection transformation identifiera en tant que PII données.

    PIIles entités de type incluent : PERSON USA _ NAME DATESNN, USA _EMAIL, _ITIN, USA PASSPORT _NUMBER, PHONE _NUMBER, BANK _ACCOUNT, _ADDRESS, MAC IP_ADDRESS, USA CPT _CODE, USA _CODE, HCPCS USA _, NATIONAL _ DRUG _CODE, USA _ MEDICARE BENEFICIARY _IDENTIFIER, USA _ HEALTH _NUMBER, INSURANCE CLAIM _ _CARD, CREDIT USA _ NATIONAL_ PROVIDER _IDENTIFIER, USA _ DEA _NUMBER, USA _ DRIVING _ LICENSE

  • OutputColumnName— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Indique le nom de la colonne de sortie qui contiendra tout type d'entité détecté dans cette ligne.

  • SampleFraction – Nombre (double), 1 au maximum.

    Indique la fraction des données à échantillonner lors de la recherche d'PIIentités.

  • ThresholdFraction – Nombre (double), 1 au maximum.

    Indique la fraction des données qui doit être satisfaite pour qu'une colonne soit identifiée comme PII donnée.

  • MaskValue— Chaîne UTF -8, d'une longueur maximale de 256 octets, correspondant auCustom string pattern #56.

    Indique la valeur qui remplacera l'entité détectée.

Structure Aggregate

Indique une transformation qui regroupe les lignes par champs choisis et calcule la valeur agrégée par fonction spécifiée.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Indique les champs et les lignes à utiliser comme entrées pour la transformation agrégée.

  • GroupsObligatoire : un tableau de UTF -8 chaînes.

    Indique les champs à regrouper.

  • Aggs – Obligatoire : tableau d'objets AggregateOperation, 1 structure minimum et 30 structures maximum.

    Indique les fonctions d'agrégation à exécuter sur des champs spécifiés.

DropDuplicates structure

Indique une transformation qui supprime des lignes de données répétitives d'un jeu de données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud de transformation.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les entrées de données identifiées par leurs noms de nœuds.

  • Columns— Un tableau de UTF -8 chaînes.

    Nom des colonnes à fusionner ou à supprimer en cas de répétition.

GovernedCatalogTarget structure

Spécifie une cible de données qui écrit sur Amazon S3 à l'aide du catalogue de AWS Glue données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible de données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

  • PartitionKeys— Un tableau de UTF -8 chaînes.

    Indique le partitionnement natif à l'aide d'une séquence de clés.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la table de la base de données dans laquelle écrire les données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Le nom de la base de données dans laquelle écrire les données.

  • SchemaChangePolicy – Un objet CatalogSchemaChangePolicy.

    Politique qui indique des comportements de mise à jour pour le catalogue gouverné.

GovernedCatalogSource structure

Spécifie le magasin de données dans le catalogue de AWS Glue données régi.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du stocker de données.

  • DatabaseObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La base de données à partir de laquelle lire les données.

  • TableObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Table de base de données à lire.

  • PartitionPredicate— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Les partitions satisfaisant à ce prédicat sont supprimées. Les fichiers qui se situent dans la période de conservation pour ces partitions ne sont pas supprimés. Valeur définie sur "" – vide par défaut.

  • AdditionalOptions – Un objet S3 SourceAdditionalOptions.

    Indique des options de connexion supplémentaires.

AggregateOperation structure

Indique l'ensemble de paramètres permettant d'effectuer l'agrégation de la transformation agrégée.

Champs
  • ColumnObligatoire : un tableau de UTF -8 chaînes.

    Indique la colonne du jeu de données sur lequel la fonction d'agrégation sera appliquée.

  • AggFuncObligatoire : chaîne UTF -8 (valeurs valides : avg countDistinct | | count | first | last | kurtosis | max | min | skewness | stddev_samp | stddev_pop | | sum | sumDistinct var_samp |var_pop).

    Indique la fonction d'agrégation à appliquer.

    Les fonctions d'agrégation possibles incluent : avgcountDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, var_samp, var_pop sumDistinct

GlueSchema structure

Indique un schéma défini par l'utilisateur lorsqu'un schéma ne peut pas être déterminé par AWS Glue.

Champs
  • Columns – Un tableau d'objets GlueStudioSchemaColumn.

    Spécifie les définitions de colonnes qui constituent un AWS Glue schéma.

GlueStudioSchemaColumn structure

Spécifie une seule colonne dans une définition de AWS Glue schéma.

Champs
  • NameObligatoire : chaîne UTF -8, d'une longueur maximale de 1024 octets, correspondant auSingle-line string pattern.

    Nom de la colonne dans le schéma AWS Glue Studio.

  • Type— Chaîne UTF -8, d'une longueur maximale de 131072 octets, correspondant au. Single-line string pattern

    Type de ruche pour cette colonne dans le schéma AWS Glue Studio.

GlueStudioColumn structure

Spécifie une seule colonne dans AWS Glue Studio.

Champs
  • KeyObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    La clé de la colonne dans AWS Glue Studio.

  • FullPathObligatoire : un tableau de UTF -8 chaînes.

    TThecomplet URL de la colonne dans AWS Glue Studio.

  • TypeObligatoire : chaîne UTF -8 (valeurs valides : array="ARRAY" bigint="BIGINT" bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" smallint="SMALLINT"| smallint array="SMALLINT_ARRAY" | string="STRING" string array="STRING_ARRAY" | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" null="NULL" | unknown="UNKNOWN" |unknown array="UNKNOWN_ARRAY").

    TThetype de colonne dans AWS Glue Studio.

  • Children : tableau d'une structure.

    TTheenfants de la colonne parent dans AWS Glue Studio.

DynamicTransform structure

Spécifie l'ensemble de paramètres permettant d'effectuer la transformation dynamique.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le nom de la transformation dynamique.

  • TransformNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le nom de la transformation dynamique tel qu'il apparaît dans l'éditeur visuel de AWS Glue Studio.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Spécifie les entrées requises pour la transformation dynamique.

  • Parameters – Un tableau d'objets TransformConfigParameter.

    Spécifie les paramètres de la transformation dynamique.

  • FunctionNameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le nom de la fonction de la transformation dynamique.

  • PathObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le chemin de la source de transformation dynamique et des fichiers de configuration.

  • Version— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Ce champ n'est pas utilisé et sera obsolète dans une version ultérieure.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique le schéma de données de la transformation dynamique.

TransformConfigParameter structure

Spécifie les paramètres du fichier de configuration de la transformation dynamique.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le nom du paramètre dans le fichier de configuration de la transformation dynamique.

  • TypeObligatoire : chaîne UTF -8 (valeurs valides : str="STR" int="INT" | float="FLOAT" | | complex="COMPLEX" | bool="BOOL" list="LIST" |null="NULL").

    Spécifie le type de paramètre dans le fichier de configuration de la transformation dynamique.

  • ValidationRule— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie la règle de validation dans le fichier de configuration de la transformation dynamique.

  • ValidationMessage— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Spécifie le message de validation dans le fichier de configuration de la transformation dynamique.

  • Value— Un tableau de UTF -8 chaînes.

    Spécifie la valeur du paramètre dans le fichier de configuration de la transformation dynamique.

  • ListType— Chaîne UTF -8 (valeurs valides : str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" list="LIST" |null="NULL").

    Spécifie le type de liste du paramètre dans le fichier de configuration de la transformation dynamique.

  • IsOptional – Booléen.

    Spécifie si le paramètre est facultatif ou non dans le fichier de configuration de la transformation dynamique.

EvaluateDataQuality structure

Spécifie vos critères d'évaluation de la qualité des données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de l'évaluation de la qualité des données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Entrées de votre évaluation de la qualité des données.

  • RulesetObligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 65536 octets, correspondant au. Custom string pattern #57

    Ensemble de règles pour l'évaluation de la qualité de vos données.

  • Output— Chaîne UTF -8 (valeurs valides : PrimaryInput |EvaluationResults).

    Résultat de votre évaluation de la qualité des données.

  • PublishingOptions – Un objet DQResultsPublishingOptions.

    Options permettant de configurer le mode de publication de vos résultats.

  • StopJobOnFailureOptions – Un objet DQStopJobOnFailureOptions.

    Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.

DQResultsPublishingOptionsstructure

Options permettant de configurer le mode de publication des résultats de votre évaluation de la qualité des données.

Champs
  • EvaluationContext— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Contexte de l'évaluation.

  • ResultsS3Prefix— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Préfixe Amazon S3 ajouté aux résultats.

  • CloudWatchMetricsEnabled – Booléen.

    Activez les métriques pour vos résultats de qualité des données.

  • ResultsPublishingEnabled – Booléen.

    Activez la publication pour vos résultats de qualité des données.

DQStopJobOnFailureOptionsstructure

Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.

Champs
  • StopJobOnFailureTiming— Chaîne UTF -8 (valeurs valides : Immediate |AfterDataLoad).

    Quand arrêter la tâche en cas d'échec de votre évaluation de la qualité des données. Les options sont immédiates ou AfterDataLoad.

EvaluateDataQualityMultiFrame structure

Spécifie vos critères d'évaluation de la qualité des données.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de l'évaluation de la qualité des données.

  • InputsObligatoire : un tableau de UTF -8 chaînes, dont au moins une chaîne.

    Entrées de votre évaluation de la qualité des données. La première entrée de cette liste est la source de données principale.

  • AdditionalDataSources – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #61

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Les alias de toutes les sources de données, à l'exception de la source principale.

  • RulesetObligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 65536 octets, correspondant au. Custom string pattern #57

    Ensemble de règles pour l'évaluation de la qualité de vos données.

  • PublishingOptions – Un objet DQResultsPublishingOptions.

    Options permettant de configurer le mode de publication de vos résultats.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF -8 (valeurs valides : performanceTuning.caching="CacheOption" |observations.scope="ObservationsOption").

    Chaque valeur est une chaîne de caractères UTF -8.

    Options permettant de configurer le comportement d'exécution de la transformation.

  • StopJobOnFailureOptions – Un objet DQStopJobOnFailureOptions.

    Options permettant de configurer le mode d'interruption de votre tâche en cas d'échec de l'évaluation de la qualité des données.

Structure de la recette

Un nœud AWS Glue Studio qui utilise une AWS Glue DataBrew recette dans les AWS Glue tâches.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom du nœud AWS Glue Studio.

  • InputsObligatoire : un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui sont des entrées du nœud de recette, identifiés par un identifiant.

  • RecipeReference – Un objet RecipeReference.

    Référence à la DataBrew recette utilisée par le nœud.

  • RecipeSteps – Un tableau d'objets RecipeStep.

    Transformez les étapes utilisées dans le nœud de recette.

RecipeReference structure

Référence à une AWS Glue DataBrew recette.

Champs
  • RecipeArnObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    Celui ARN de la DataBrew recette.

  • RecipeVersionObligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 16 octets de long.

    Celui RecipeVersion de la DataBrew recette.

SnowflakeNodeData structure

Spécifie la configuration des nœuds Snowflake dans Studio. AWS Glue

Champs
  • SourceType— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Indique la manière dont les données extraites sont spécifiées. Valeurs valides : "table", "query".

  • Connection – Un objet Option.

    Spécifie une connexion au catalogue de AWS Glue données à un point de terminaison Snowflake.

  • Schema— UTF -8 chaînes.

    Indique un schéma de base de données Snowflake que votre nœud doit utiliser.

  • Table— UTF -8 chaînes.

    Indique une table Snowflake que votre nœud doit utiliser.

  • Database— UTF -8 chaînes.

    Indique une base de données Snowflake que votre nœud doit utiliser.

  • TempDir— Chaîne UTF -8, correspondant auCustom string pattern #59.

    Non utilisé actuellement.

  • IamRole – Un objet Option.

    Non utilisé actuellement.

  • AdditionalOptions – Tableau de mappage de paires valeur-clé.

    Chaque touche est une chaîne de caractères UTF -8 correspondant à. Custom string pattern #59

    Chaque valeur est une chaîne UTF -8 correspondant à. Custom string pattern #59

    Indique les options supplémentaires transmises au connecteur Snowflake. Si des options sont spécifiées ailleurs dans ce nœud, elles seront prioritaires.

  • SampleQuery— UTF -8 chaînes.

    SQLChaîne utilisée pour récupérer des données avec le type query source.

  • PreAction— UTF -8 chaînes.

    SQLChaîne exécutée avant que le connecteur Snowflake n'exécute ses actions standard.

  • PostAction— UTF -8 chaînes.

    SQLChaîne exécutée une fois que le connecteur Snowflake a effectué ses actions standard.

  • Action— UTF -8 chaînes.

    Indique l'action à effectuer lors de l'écriture dans une table contenant des données préexistantes. Valeurs valides: append, merge, truncate, drop.

  • Upsert – Booléen.

    Utilisé lorsque action est append. Indique le comportement de résolution lorsqu'une ligne existe déjà. Si la valeur est vraie, les lignes préexistantes seront mises à jour. Si la valeur est fausse, ces lignes seront insérées.

  • MergeAction— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Indique une action de fusion. Valeurs valides : simple, custom. S'il la valeur est simple, le comportement de fusion est défini par MergeWhenMatched et MergeWhenNotMatched. Si la valeur est personnalisée, il est défini par MergeClause.

  • MergeWhenMatched— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Indique comment résoudre les enregistrements qui correspondent à des données préexistantes lors de la fusion. Valeurs valides : update, delete.

  • MergeWhenNotMatched— Chaîne UTF -8, correspondant auCustom string pattern #58.

    Indique comment traiter les enregistrements qui ne correspondent pas aux données préexistantes lors de la fusion. Valeurs valides : insert, none.

  • MergeClause— UTF -8 chaînes.

    SQLInstruction qui spécifie un comportement de fusion personnalisé.

  • StagingTable— UTF -8 chaînes.

    Le nom d'une table intermédiaire utilisée lors de l'exécution de l'action merge ou d'actions d'insertion append. Les données sont écrites dans cette table, puis déplacées vers table par une postaction générée.

  • SelectedColumns – Un tableau d'objets Option.

    Indique les colonnes combinées pour identifier un enregistrement lors de la détection des correspondances pour les fusions et les insertions. Une liste de structures avec des clés value, label et description. Chaque structure décrit une colonne.

  • AutoPushdown – Booléen.

    Indique si le pushdown automatique des requêtes est activée. Lorsque l'option pushdown est activée, si une partie de la requête peut être « poussée vers le bas » sur le serveur Snowflake, elle est poussée vers le bas au moment de l'exécution de la requête sur Spark. Cela améliore les performances de certaines requêtes.

  • TableSchema – Un tableau d'objets Option.

    Définit manuellement le schéma cible du nœud. Une liste de structures avec des clés value, label et description. Chaque structure définit une colonne.

SnowflakeSource structure

Indique une source de données Snowflake.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la source de données Snowflake.

  • DataObligatoire : un objet SnowflakeNodeData.

    Configuration de la source de données Snowflake.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Indique les schémas définis par l'utilisateur pour vos données de sortie.

SnowflakeTarget structure

Indique une cible Snowflake.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Le nom de la cible Snowflake.

  • DataObligatoire : un objet SnowflakeNodeData.

    Indique les données du nœud cible Snowflake.

  • Inputs— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

ConnectorDataSource structure

Spécifie une source générée avec des options de connexion standard.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de ce nœud source.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    LeconnectionType, tel que fourni à la AWS Glue bibliothèque sous-jacente. Ce type de nœud prend en charge les types de connexion suivants :

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Dataobligatoire : tableau de mappage de paires clé-valeur.

    Chaque touche est une chaîne de caractères UTF -8.

    Chaque valeur est une chaîne de caractères UTF -8.

    Carte indiquant des options de connexion pour le nœud. Vous trouverez les options de connexion standard pour le type de connexion correspondant dans la section Paramètres de connexion de la AWS Glue documentation.

  • OutputSchemas – Un tableau d'objets GlueSchema.

    Spécifie le schéma de données pour cette source.

ConnectorDataTarget structure

Spécifie une cible générée avec des options de connexion standard.

Champs
  • NameObligatoire : chaîne UTF -8, correspondant auCustom string pattern #61.

    Nom de ce nœud cible.

  • ConnectionTypeObligatoire : chaîne UTF -8, correspondant auCustom string pattern #59.

    LeconnectionType, tel que fourni à la AWS Glue bibliothèque sous-jacente. Ce type de nœud prend en charge les types de connexion suivants :

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • Dataobligatoire : tableau de mappage de paires clé-valeur.

    Chaque touche est une chaîne de caractères UTF -8.

    Chaque valeur est une chaîne de caractères UTF -8.

    Carte indiquant des options de connexion pour le nœud. Vous trouverez les options de connexion standard pour le type de connexion correspondant dans la section Paramètres de connexion de la AWS Glue documentation.

  • Inputs— Un tableau de UTF -8 chaînes, pas moins d'une ou plus de 1 chaînes.

    Les nœuds qui constituent des entrées pour la cible de données.

RecipeStep structure

Étape de recette utilisée dans un nœud de recette de préparation de données AWS Glue Studio.

Champs
  • ActionObligatoire : un objet RecipeAction.

    L'action de transformation de l'étape de recette.

  • ConditionExpressions – Un tableau d'objets ConditionExpression.

    Les expressions de condition pour l'étape de la recette.

RecipeAction structure

Actions définies dans le nœud de recette de préparation des données de AWS Glue Studio.

Champs
  • OperationObligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 128 octets, correspondant auCustom string pattern #54.

    Fonctionnement de l'action de recette.

  • Parameters – Tableau de mappage de paires valeur-clé.

    Chaque clé est une chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 128 octets, correspondant auCustom string pattern #55.

    Chaque valeur est une chaîne UTF -8, d'une longueur d'au moins 1 ou supérieure à 32 768 octets.

    Les paramètres de l'action de recette.

ConditionExpression structure

Expression de condition définie dans le nœud de recette de préparation des données de AWS Glue Studio.

Champs
  • ConditionObligatoire : UTF -8 chaînes, d'au moins 1 ou plus de 128 octets, correspondant auCustom string pattern #54.

    La condition de l'expression de la condition.

  • Value— UTF -8 chaînes, d'une longueur maximale de 1024 octets.

    Valeur de l'expression de condition.

  • TargetColumnObligatoire : UTF -8 chaînes, d'une longueur d'au moins 1 ou supérieure à 1024 octets.

    La colonne cible des expressions de condition.