Trabajo visual API - AWS Glue
 —  data types  —CodeGenConfigurationNodeJDBCConnectorOptionsStreamingDataPreviewOptionsAthenaConnectorSourceJDBCConnectorSourceSparkConnectorSourceCatalogSourceySQLCatalogFuente MostgreSQLCatalogFuente PO racleSQLCatalog FuenteM icrosoftSQLServer CatalogSourceCatalogKinesisSourceDirectKinesisSourceKinesisStreamingSourceOptionsCatalogKafkaSourceDirectKafkaSourceKafkaStreamingSourceOptionsRedshiftSourceAmazonRedshiftSourceAmazonRedshiftNodeDataAmazonRedshiftAdvancedOptionOpciónS3 CatalogSourceS3 SourceAdditionalOptionsS3 CsvSourceD irectJDBCSourceS3 DirectSourceAdditionalOptionsS3 JsonSourceS3 ParquetSourceS3 DeltaSourceS3 CatalogDeltaSourceCatalogDeltaSourceS3 HudiSourceS3 CatalogHudiSourceCatalogHudiSourceynamoDBCatalogFuente DRelationalCatalogSourceJDBCConnectorTargetSparkConnectorTargetBasicCatalogTargetySQLCatalogObjetivo MP ostgreSQLCatalog ObjetivoO racleSQLCatalog TargetM icrosoftSQLServer CatalogTargetRedshiftTargetAmazonRedshiftTargetUpsertRedshiftTargetOptionsS3 CatalogTargetS3 GlueParquetTargetCatalogSchemaChangePolicyS3 DirectTargetS3 HudiCatalogTargetS3 HudiDirectTargetS3 DeltaCatalogTargetS3 DeltaDirectTargetDirectSchemaChangePolicyApplyMappingCorrespondenciaSelectFieldsDropFieldsRenameFieldSpigotJoinJoinColumnSplitFieldsSelectFromCollectionFillMissingValuesFiltroFilterExpressionFilterValueCustomCodeChispa SQLSqlAliasDropNullFieldsNullCheckBoxListNullValueFieldTipo de datosMergeUniónPIIDetectionAgregadoDropDuplicatesGovernedCatalogTargetGovernedCatalogSourceAggregateOperationGlueSchemaGlueStudioSchemaColumnGlueStudioColumnDynamicTransformTransformConfigParameterEvaluateDataQualityDQResultsPublishingOptionsDQStopJobOnFailureOptionsEvaluateDataQualityMultiFrameRecetaRecipeReferenceSnowflakeNodeDataSnowflakeSourceSnowflakeTargetConnectorDataSourceConnectorDataTargetRecipeStepRecipeActionConditionExpression

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Trabajo visual API

El trabajo visual API le permite crear trabajos de integración de datos mediante el uso AWS Glue API de un JSON objeto que representa la configuración visual de un AWS Glue trabajo.

CodeGenConfigurationNodesSe proporciona una lista de tareas de creación o actualización API para registrar una tarea DAG en AWS Glue Studio para la tarea creada y generar el código asociado.

Tipos de datos

CodeGenConfigurationNode estructura

CodeGenConfigurationNode enumera todos los tipos de nodos válidos. Se puede completar una y solo una de sus variables miembro.

Campos
  • AthenaConnectorSource: un objeto AthenaConnectorSource.

    Especifica un conector a un origen de datos de Amazon Athena.

  • JDBCConnectorSource: un objeto JDBCConnectorSource.

    Especifica un conector a una fuente JDBC de datos.

  • SparkConnectorSource: un objeto SparkConnectorSource.

    Especifica un conector a un origen de datos de Apache Spark.

  • CatalogSource: un objeto CatalogSource.

    Especifica un banco de datos en el catálogo AWS Glue de datos.

  • RedshiftSource: un objeto RedshiftSource.

    Especifica un almacén de datos de Amazon Redshift.

  • S3CatalogSource: un objeto S3 CatalogSource.

    Especifica un almacén de datos de Amazon S3 en el catálogo AWS Glue de datos.

  • S3CsvSource: un objeto S3 CsvSource.

    Especifica un almacén de datos de valores separados por comandos (CSV) almacenado en Amazon S3.

  • S3JsonSource: un objeto S3 JsonSource.

    Especifica un almacén de JSON datos almacenado en Amazon S3.

  • S3ParquetSource: un objeto S3 ParquetSource.

    Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.

  • RelationalCatalogSource: un objeto RelationalCatalogSource.

    Especifica un almacén de datos del catálogo relacional en el catálogo AWS Glue de datos.

  • DynamoDBCatalogSource: un objeto ynamoDBCatalogFuente D.

    Especifica un banco de datos de Dynamo DBC Catalog en el catálogo de AWS Glue datos.

  • JDBCConnectorTarget: un objeto JDBCConnectorTarget.

    Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

  • SparkConnectorTarget: un objeto SparkConnectorTarget.

    Especifica un destino que utiliza un conector de Apache Spark.

  • CatalogTarget: un objeto BasicCatalogTarget.

    Especifica un destino que utiliza una tabla de catálogo AWS Glue de datos.

  • RedshiftTarget: un objeto RedshiftTarget.

    Especifica un destino que utiliza Amazon Redshift.

  • S3CatalogTarget: un objeto S3 CatalogTarget.

    Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

  • S3GlueParquetTarget: un objeto S3 GlueParquetTarget.

    Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

  • S3DirectTarget: un objeto S3 DirectTarget.

    Especifica un destino de datos que escribe en Amazon S3.

  • ApplyMapping: un objeto ApplyMapping.

    Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.

  • SelectFields: un objeto SelectFields.

    Especifica una transformación que elige las claves de propiedad de datos que desea conservar.

  • DropFields: un objeto DropFields.

    Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.

  • RenameField: un objeto RenameField.

    Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.

  • Spigot: un objeto Spigot.

    Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.

  • Join: un objeto Join.

    Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.

  • SplitFields: un objeto SplitFields.

    Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames. La salida es una recopilación de DynamicFrames: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.

  • SelectFromCollection: un objeto SelectFromCollection.

    Especifica una transformación que elige un DynamicFrame de una recopilación de DynamicFrames. El resultado es el DynamicFrame seleccionado

  • FillMissingValues: un objeto FillMissingValues.

    Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.

  • Filter: un objeto Filtro.

    Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.

  • CustomCode: un objeto CustomCode.

    Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. El resultado es una colección de DynamicFrames.

  • SparkSQL: un objeto Chispa SQL.

    Especifica una transformación en la que se introduce una SQL consulta mediante la SQL sintaxis de Spark para transformar los datos. La salida es un único DynamicFrame.

  • DirectKinesisSource: un objeto DirectKinesisSource.

    Especifica un origen de datos directo de Amazon Kinesis.

  • DirectKafkaSource: un objeto DirectKafkaSource.

    Especifica un almacén de datos de Apache Kafka.

  • CatalogKinesisSource: un objeto CatalogKinesisSource.

    Especifica una fuente de datos de Kinesis en el catálogo de AWS Glue datos.

  • CatalogKafkaSource: un objeto CatalogKafkaSource.

    Especifica un almacén de datos de Apache Kafka en Data Catalog.

  • DropNullFields: un objeto DropNullFields.

    Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas «nulas», los enteros -1 u otros marcadores de posición, como ceros, no se reconocen automáticamente como nulos.

  • Merge: un objeto Merge.

    Especifica una transformación que fusiona un DynamicFrame con una instancia provisional de DynamicFrame en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.

  • Union: un objeto Unión.

    Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.

  • PIIDetection: un objeto PIIDetection.

    Especifica una transformación que identifica, elimina o enmascara los datos. PII

  • Aggregate: un objeto Agregado.

    Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.

  • DropDuplicates: un objeto DropDuplicates.

    Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.

  • GovernedCatalogTarget: un objeto GovernedCatalogTarget.

    Especifica un destino de datos que escribe en un catálogo gobernado.

  • GovernedCatalogSource: un objeto GovernedCatalogSource.

    Especifica un origen de datos en un Data Catalog gobernado.

  • MicrosoftSQLServerCatalogSource: un objeto M icrosoftSQLServer CatalogSource.

    Especifica una fuente de datos de SQL servidor de Microsoft en el catálogo AWS Glue de datos.

  • MySQLCatalogSource: un objeto ySQLCatalogFuente M.

    Especifica una fuente SQL de datos mía en el catálogo AWS Glue de datos.

  • OracleSQLCatalogSource: un objeto O racleSQLCatalog Fuente.

    Especifica una fuente de datos de Oracle en el catálogo AWS Glue de datos.

  • PostgreSQLCatalogSource: un objeto ostgreSQLCatalogFuente P.

    Especifica una fuente de SQL datos de Postgres en el catálogo de AWS Glue datos.

  • MicrosoftSQLServerCatalogTarget: un objeto M icrosoftSQLServer CatalogTarget.

    Especifica un destino que usa MicrosoftSQL.

  • MySQLCatalogTarget: un objeto ySQLCatalogObjetivo M.

    Especifica un objetivo que usa MySQL.

  • OracleSQLCatalogTarget: un objeto O racleSQLCatalog Target.

    Especifica un destino que utiliza OracleSQL.

  • PostgreSQLCatalogTarget: un objeto P ostgreSQLCatalog Objetivo.

    Especifica un destino que usa PostgresSQL.

  • DynamicTransform: un objeto DynamicTransform.

    Especifica una transformación visual personalizada que haya creado un usuario.

  • EvaluateDataQuality: un objeto EvaluateDataQuality.

    Especifica los criterios de evaluación de la calidad de los datos.

  • S3CatalogHudiSource: un objeto S3 CatalogHudiSource.

    Especifica una fuente de datos de Hudi que está registrada en el AWS Glue catálogo de datos. La fuente de datos debe almacenarse en Amazon S3.

  • CatalogHudiSource: un objeto CatalogHudiSource.

    Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos.

  • S3HudiSource: un objeto S3 HudiSource.

    Especifica una fuente de datos Hudi almacenada en. Amazon S3

  • S3HudiCatalogTarget: un objeto S3 HudiCatalogTarget.

    Especifica un destino que escribe en una fuente de datos de Hudi del catálogo de AWS Glue datos.

  • S3HudiDirectTarget: un objeto S3 HudiDirectTarget.

    Especifica un destino que escribe en una fuente de datos de Hudi. Amazon S3

  • S3CatalogDeltaSource: un objeto S3 CatalogDeltaSource.

    Especifica una fuente de datos de Delta Lake que está registrada en el catálogo de AWS Glue datos. La fuente de datos debe almacenarse en Amazon S3.

  • CatalogDeltaSource: un objeto CatalogDeltaSource.

    Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos.

  • S3DeltaSource: un objeto S3 DeltaSource.

    Especifica una fuente de datos de Delta Lake almacenada en Amazon S3.

  • S3DeltaCatalogTarget: un objeto S3 DeltaCatalogTarget.

    Especifica un destino que escribe en una fuente de datos de Delta Lake del catálogo AWS Glue de datos.

  • S3DeltaDirectTarget: un objeto S3 DeltaDirectTarget.

    Especifica un destino que escribe en una fuente de datos de Delta Lake Amazon S3.

  • AmazonRedshiftSource: un objeto AmazonRedshiftSource.

    Especifica un destino que escribe en un origen de datos en Amazon Redshift.

  • AmazonRedshiftTarget: un objeto AmazonRedshiftTarget.

    Especifica un destino que escribe en un destino de datos en Amazon Redshift.

  • EvaluateDataQualityMultiFrame: un objeto EvaluateDataQualityMultiFrame.

    Especifica los criterios de evaluación de la calidad de los datos. Permite múltiples datos de entrada y devuelve una colección de marcos dinámicos.

  • Recipe: un objeto Receta.

    Especifica un nodo de AWS Glue DataBrew receta.

  • SnowflakeSource: un objeto SnowflakeSource.

    Especifica un origen de datos de Snowflake.

  • SnowflakeTarget: un objeto SnowflakeTarget.

    Especifica un destino que escribe en un origen de datos de Snowflake.

  • ConnectorDataSource: un objeto ConnectorDataSource.

    Especifica una fuente generada con opciones de conexión estándar.

  • ConnectorDataTarget: un objeto ConnectorDataTarget.

    Especifica un destino generado con opciones de conexión estándar.

JDBCConnectorOptionsestructura

Opciones de conexión adicionales para el conector.

Campos
  • FilterPredicate— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Cláusula de condición adicional para filtrar datos desde el origen. Por ejemplo:

    BillingCity='Mountain View'

    Cuando se utiliza una consulta en lugar de una tabla, se debe validar que la consulta funciona con el filterPredicate especificado.

  • PartitionColumn— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El nombre de una columna entera que se utiliza para particionar. Esta opción solo funciona cuando está incluida con lowerBound, upperBound y numPartitions. Esta opción funciona de la misma forma que en el SQL JDBC lector Spark.

  • LowerBound: número (largo), cero como máximo.

    El valor mínimo de partitionColumn que se utiliza para decidir el intervalo de partición.

  • UpperBound: número (largo), cero como máximo.

    El valor máximo de partitionColumn que se utiliza para decidir el intervalo de partición.

  • NumPartitions: número (largo), cero como máximo.

    El número de particiones. Este valor, junto con lowerBound (inclusive) y upperBound (exclusivo), forma intervalos de partición para expresiones de la cláusula WHERE generadas, que se utilizan para dividir la partitionColumn.

  • JobBookmarkKeys— Un conjunto de UTF -8 cadenas.

    El nombre de las claves favoritas de trabajo en las que se ordenará.

  • JobBookmarkKeysSortOrder— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Especifica el orden de clasificación ascendente o descendente.

  • DataTypeMapping: matriz de mapas de pares clave-valor.

    Cada clave es una cadena de UTF -8 (valores válidos: ARRAY BIGINT BINARY | BIT | BLOB | BOOLEAN | CHAR | CLOB | DATALINK | DATE | DECIMAL | DISTINCT | DOUBLE | FLOAT | INTEGER | JAVA_OBJECT | LONGNVARCHAR | LONGVARBINARY | LONGVARCHAR | NCHAR | NCLOB | NULL | NUMERIC NVARCHAR | OTHER | REAL | REF | REF_CURSOR | ROWID | SMALLINT | SQLXML | STRUCT | TIME | TIME_WITH_TIMEZONE | TIMESTAMP | TIMESTAMP_WITH_TIMEZONE| TINYINT | VARBINARY |VARCHAR).

    Cada valor es una cadena de UTF -8 (valores válidos: DATE | STRING | TIMESTAMP | INT | FLOAT | LONG | BIGDECIMAL | BYTE | SHORT |DOUBLE).

    Mapeo de tipos de datos personalizado que crea un mapeo de un tipo de JDBC datos a otro tipo de AWS Glue datos. Por ejemplo, la opción "dataTypeMapping":{"FLOAT":"STRING"} asigna campos de JDBC datos de String tipo Java llamando al ResultSet.getString() método del controlador y lo utiliza para crear el AWS Glue registro. FLOAT Cada controlador implementa el objeto ResultSet, por lo que el comportamiento es específico del controlador que se utiliza. Consulte la documentación del JDBC conductor para saber cómo realiza las conversiones.

StreamingDataPreviewOptions estructura

Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

Campos
  • PollingTime: número (largo), como mínimo 10.

    El tiempo de sondeo en milisegundos.

  • RecordPollingLimit: número (largo), como mínimo 1.

    El límite del número de registros sondeados.

AthenaConnectorSource estructura

Especifica un conector a un origen de datos de Amazon Athena.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • ConnectionNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la conexión asociada al conector.

  • ConnectorNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de un conector que ayuda a acceder al almacén de datos de AWS Glue Studio.

  • ConnectionTypeObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El tipo de conexión, como marketplace.athena o custom.athena, que designa una conexión a un almacén de datos de Amazon Athena.

  • ConnectionTable— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El nombre de la tabla en el origen de datos.

  • SchemaNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre del grupo de registro de CloudWatch de lectura. Por ejemplo, /aws-glue/jobs/output.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de Athena personalizado.

JDBCConnectorSourceestructura

Especifica un conector a una fuente JDBC de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • ConnectionNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la conexión asociada al conector.

  • ConnectorNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de un conector que ayuda a acceder al almacén de datos de AWS Glue Studio.

  • ConnectionTypeObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un almacén de datos. JDBC

  • AdditionalOptions: un objeto JDBCConnectorOptions.

    Opciones de conexión adicionales para el conector.

  • ConnectionTableCustom string pattern #43 -8 cadenas, que coinciden con. UTF

    El nombre de la tabla en el origen de datos.

  • Query— UTF -8 cuerdas, que coinciden conCustom string pattern #44.

    La tabla o SQL consulta de la que se van a obtener los datos. Puede especificar ConnectionTable o query, pero no ambos.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos de la JDBC fuente personalizada.

SparkConnectorSource estructura

Especifica un conector a un origen de datos de Apache Spark.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • ConnectionNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la conexión asociada al conector.

  • ConnectorNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de un conector que ayuda a acceder al almacén de datos de AWS Glue Studio.

  • ConnectionTypeObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de spark personalizado.

CatalogSource estructura

Especifica un banco de datos en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

Estructura ySQLCatalog de origen M

Especifica una fuente SQL de datos mía en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

PostgreSQLCatalog: Estructura fuente

Especifica una fuente de SQL datos de Postgres en el catálogo de AWS Glue datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

O Estructura racleSQLCatalog de origen

Especifica una fuente de datos de Oracle en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

icrosoftSQLServerCatalogSource Estructura M

Especifica una fuente de datos de SQL servidor de Microsoft en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

CatalogKinesisSource estructura

Especifica una fuente de datos de Kinesis en el catálogo de AWS Glue datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • StreamingOptions: un objeto KinesisStreamingSourceOptions.

    Opciones adicionales para el origen de datos de streaming de Kinesis.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Opciones adicionales para la versión preliminar de datos.

DirectKinesisSource estructura

Especifica un origen de datos directo de Amazon Kinesis.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • StreamingOptions: un objeto KinesisStreamingSourceOptions.

    Opciones adicionales para el origen de datos de streaming de Kinesis.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Opciones adicionales para la versión preliminar de datos.

KinesisStreamingSourceOptions estructura

Opciones adicionales para el origen de datos de streaming de Amazon Kinesis.

Campos
  • EndpointUrl— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El URL del punto final de Kinesis.

  • StreamName— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El nombre del flujo de datos de Kinesis.

  • Classification— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Una clasificación opcional.

  • Delimiter— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Especifica el carácter delimitador.

  • StartingPosition— UTF -8 cadenas (valores válidos: latest="LATEST" | trim_horizon="TRIM_HORIZON" | earliest="EARLIEST" |timestamp="TIMESTAMP").

    La posición inicial en el flujo de datos de Kinesis para leer los datos. Los valores posibles son"latest", "trim_horizon""earliest", o una cadena de fecha y hora con el UTC formato del patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de UTC zona horaria con un +/-). Por ejemplo: «2023-04-04T 08:00:00-04:00 «). El valor predeterminado es "latest".

    Nota: El uso de un valor que sea una cadena de fecha y hora con el formato «» solo se admite en UTC la versión 4.0 o posterior. startingPosition AWS Glue

  • MaxFetchTimeInMs: número (largo), cero como máximo.

    El tiempo máximo que le tomó al ejecutor del trabajo leer los registros del lote actual en el flujo de datos de Kinesis, especificado en milisegundos (ms). Se pueden GetRecords API realizar varias llamadas dentro de este período. El valor predeterminado es 1000.

  • MaxFetchRecordsPerShard: número (largo), cero como máximo.

    El número máximo de registros que se recuperará por partición en el flujo de datos de Kinesis por microlote. Nota: El cliente puede exceder este límite si el trabajo de streaming ya leyó registros adicionales de Kinesis (en la misma llamada de obtención de registros). Si MaxFetchRecordsPerShard tiene que ser preciso, entonces tiene que ser un múltiplo de MaxRecordPerRead. El valor predeterminado es 100000.

  • MaxRecordPerRead: número (largo), cero como máximo.

    El número máximo de registros que se pueden obtener de la transmisión de datos de Kinesis en getRecords cada operación. El valor predeterminado es 10000.

  • AddIdleTimeBetweenReads: booleano.

    Añade un intervalo de tiempo entre dos operaciones consecutivas getRecords . El valor predeterminado es "False". Esta opción sólo se puede configurar para Glue versión 2.0 y superior.

  • IdleTimeBetweenReadsInMs: número (largo), cero como máximo.

    El retraso mínimo entre dos getRecords operaciones consecutivas, especificado en ms. El valor predeterminado es 1000. Esta opción sólo se puede configurar para Glue versión 2.0 y superior.

  • DescribeShardInterval: número (largo), cero como máximo.

    El intervalo de tiempo mínimo entre dos ListShards API llamadas para que el guion considere la posibilidad de volver a partirse. El valor predeterminado es 1s.

  • NumRetries: número (entero), cero como máximo.

    El número máximo de reintentos para las solicitudes de Kinesis Data API Streams. El valor predeterminado es 3.

  • RetryIntervalMs: número (largo), cero como máximo.

    El período de tiempo de espera (especificado en ms) antes de volver a intentar la llamada a Kinesis Data Streams. API El valor predeterminado es 1000.

  • MaxRetryIntervalMs: número (largo), cero como máximo.

    El período máximo de tiempo de espera (especificado en ms) entre dos reintentos de una llamada de Kinesis Data Streams. API El valor predeterminado es 10000.

  • AvoidEmptyBatches: booleano.

    Evita crear un trabajo de microlotes vacío al comprobar si hay datos no leídos en el flujo de datos de Kinesis antes de que se inicie el lote. El valor predeterminado es "False".

  • StreamArn— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El nombre del recurso de Amazon (ARN) de la transmisión de datos de Kinesis.

  • RoleArn— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El nombre del recurso de Amazon (ARN) del rol que se va a asumir mediante AWS Security Token Service (AWSSTS). Este rol debe tener permisos para describir o leer operaciones de registros del flujo de datos de Kinesis. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con "awsSTSSessionName".

  • RoleSessionName— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Un identificador para la sesión que asume el rol que utiliza AWSSTS. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con "awsSTSRoleARN".

  • AddRecordTimestamp— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el flujo recibió el registro correspondiente. El valor predeterminado es "false". Esta opción es compatible con la AWS Glue versión 4.0 o posterior.

  • EmitConsumerLagMetrics— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Si esta opción se establece en «true», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por la transmisión y el momento en AWS Glue que llegue CloudWatch. El nombre de la métrica es «glue.driver.streaming». maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue .

  • StartingTimestamp— UTF -8 cuerdas.

    La marca de tiempo del registro del flujo de datos de Kinesis desde la que empezar a leer los datos. Los valores posibles son una cadena de fecha y hora con el UTC formato del patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de UTC zona horaria con un +/-). Por ejemplo: «2023-04-04T 08:00:00 + 08:00 «).

CatalogKafkaSource estructura

Especifica un almacén de datos de Apache Kafka en Data Catalog.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • StreamingOptions: un objeto KafkaStreamingSourceOptions.

    Especifica las opciones de streaming.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

DirectKafkaSource estructura

Especifica un almacén de datos de Apache Kafka.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • StreamingOptions: un objeto KafkaStreamingSourceOptions.

    Especifica las opciones de streaming.

  • WindowSize: número (entero), cero como máximo.

    La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.

  • DetectSchema: booleano.

    Si se debe determinar automáticamente el esquema a partir de los datos entrantes.

  • DataPreviewOptions: un objeto StreamingDataPreviewOptions.

    Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.

KafkaStreamingSourceOptions estructura

Opciones adicionales para streaming.

Campos
  • BootstrapServers— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Una lista de servidores de arranqueURLs, por ejemplo, comob-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Esta opción debe especificarse en la API llamada o definirse en los metadatos de la tabla del catálogo de datos.

  • SecurityProtocol— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    El protocolo utilizado para la comunicación con los agentes. Los valores posibles son "SSL" o."PLAINTEXT"

  • ConnectionName— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El nombre de la conexión.

  • TopicName— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El nombre del tema como se especifica en Apache Kafka. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • Assign— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Las TopicPartitions específicas que se utilizarán. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • SubscribePattern— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Una cadena de expresiones regulares de Java que identifica la lista de temas a la que desea suscribirse. Debe especificar al menos una opción entre "topicName", "assign" o "subscribePattern".

  • Classification— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Una clasificación opcional.

  • Delimiter— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Especifica el carácter delimitador.

  • StartingOffsets— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La posición inicial en el tema de Kafka para leer los datos. Los valores posibles son "earliest" o."latest" El valor predeterminado es "latest".

  • EndingOffsets— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El punto de conexión cuando finaliza una consulta por lotes. Los valores posibles son una cadena "latest" o una JSON cadena que especifique un desfase final para cada unoTopicPartition.

  • PollTimeoutMs: número (largo), cero como máximo.

    El tiempo de espera en milisegundos para sondear datos de Kafka en ejecutores de trabajos de Spark. El valor predeterminado es 512.

  • NumRetries: número (entero), cero como máximo.

    El número de veces que se reintenta antes de no obtener las compensaciones de Kafka. El valor predeterminado es 3.

  • RetryIntervalMs: número (largo), cero como máximo.

    El tiempo en milisegundos para esperar antes de volver a intentar obtener compensaciones Kafka. El valor predeterminado es 10.

  • MaxOffsetsPerTrigger: número (largo), cero como máximo.

    El límite de velocidad en el número máximo de compensaciones que se procesan por intervalo de desencadenador. El número total de compensaciones especificado se divide de forma proporcional entre topicPartitions de diferentes volúmenes. El valor predeterminado es nulo, lo que significa que el consumidor lee todos las compensaciones hasta la última compensación conocida.

  • MinPartitions: número (entero), cero como máximo.

    El número mínimo deseado de particiones para leer desde Kafka. El valor predeterminado es nulo, lo que significa que el número de particiones de Spark es igual al número de particiones de Kafka.

  • IncludeHeaders: booleano.

    Si se incluyen los encabezados de Kafka. Cuando la opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “glue_streaming_kafka_headers” con el tipo Array[Struct(key: String, value: String)]. El valor predeterminado es "false". Esta opción solo está disponible en AWS Glue la versión 3.0 o posterior.

  • AddRecordTimestamp— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el tema recibió el registro correspondiente. El valor predeterminado es "false". Esta opción es compatible con la AWS Glue versión 4.0 o posterior.

  • EmitConsumerLagMetrics— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Si esta opción se establece en «true», para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el tema y el momento en AWS Glue que llegue CloudWatch. El nombre de la métrica es «glue.driver.streaming». maxConsumerLagInMs». El valor predeterminado es "false". Esta opción es compatible con la versión 4.0 o posterior de AWS Glue .

  • StartingTimestamp— UTF -8 cuerdas.

    La marca de tiempo del registro en el tema de Kafka desde el que empezar a leer los datos. Los valores posibles son una cadena de fecha y hora con el UTC formato del patrón yyyy-mm-ddTHH:MM:SSZ (donde Z representa un desplazamiento de UTC zona horaria con un +/-). Por ejemplo: «2023-04-04T 08:00:00 + 08:00 «).

    Solo se debe configurar una de StartingTimestamp o StartingOffsets.

RedshiftSource estructura

Especifica un almacén de datos de Amazon Redshift.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos de Amazon Redshift.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La tabla de base de datos de lectura.

  • RedshiftTmpDir— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • TmpDirIAMRole— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El IAM rol con permisos.

AmazonRedshiftSource estructura

Especifica el origen de Amazon Redshift.

Campos

AmazonRedshiftNodeData estructura

Especifica un nodo de Amazon Redshift.

Campos
  • AccessType— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    El tipo de acceso para la conexión de Redshift. Puede ser una conexión directa o una conexión de catálogo.

  • SourceType— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    El tipo de origen para especificar si una tabla específica es el origen o una consulta personalizada.

  • Connection: un objeto Opción.

    La AWS Glue conexión al clúster de Redshift.

  • Schema: un objeto Opción.

    El nombre del esquema de Redshift cuando se trabaja con una conexión directa.

  • Table: un objeto Opción.

    El nombre de la tabla de Redshift cuando se trabaja con una conexión directa.

  • CatalogDatabase: un objeto Opción.

    El nombre de la base de AWS Glue datos del catálogo de datos cuando se trabaja con un catálogo de datos.

  • CatalogTable: un objeto Opción.

    El nombre de la tabla del catálogo de AWS Glue datos cuando se trabaja con un catálogo de datos.

  • CatalogRedshiftSchema— UTF -8 cadenas.

    El nombre del esquema de Redshift cuando se trabaja con un catálogo de datos.

  • CatalogRedshiftTable— UTF -8 cuerdas.

    La tabla de base de datos de lectura.

  • TempDir— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • IamRole: un objeto Opción.

    Opcional. El nombre del rol que se utiliza al conectarse a S3. Si se deja en blanco, el rol predeterminado será el rol del trabajo. IAM

  • AdvancedOptions: matriz de objetos AmazonRedshiftAdvancedOption.

    Valores opcionales al conectarse al clúster de Redshift.

  • SampleQuery— UTF -8 cuerdas.

    SQLSe utilizan para obtener los datos de una fuente de Redshift cuando se SourceType trata de una «consulta».

  • PreAction— -8 cadenas. UTF

    La SQL utilizada antes de ejecutar un upsert MERGE o APPEND con upsert.

  • PostAction— UTF -8 cuerdas.

    La SQL utilizada antes de ejecutar un upsert MERGE o APPEND con upsert.

  • Action— UTF -8 cuerdas.

    Especifica cómo se escribirá en un clúster de Redshift.

  • TablePrefix— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    Especifica el prefijo a una tabla.

  • Upsert: booleano.

    La acción utilizada en Redshift se hunde al realizar un. APPEND

  • MergeAction— UTF -8 cuerdas, que coinciden con. Custom string pattern #42

    La acción que se utiliza para determinar cómo se gestionará un sumidero MERGE en Redshift.

  • MergeWhenMatched— UTF -8 cuerdas, que coinciden con. Custom string pattern #42

    La acción que se utiliza para determinar cómo se gestionará un MERGE sumidero de Redshift cuando un registro existente coincida con un registro nuevo.

  • MergeWhenNotMatched— UTF -8 cadenas, que coinciden con. Custom string pattern #42

    La acción que se utiliza para determinar cómo se gestionará un MERGE sumidero de Redshift cuando un registro existente no coincida con un registro nuevo.

  • MergeClause— -8 cadenasUTF.

    Se SQL utilizan en una combinación personalizada para tratar los registros coincidentes.

  • CrawlerConnection— UTF -8 cuerdas.

    Especifica el nombre de la conexión asociada con la tabla de catálogo utilizada.

  • TableSchema: matriz de objetos Opción.

    La matriz de salida del esquema para un nodo determinado.

  • StagingTable— UTF -8 cuerdas.

    El nombre de la tabla de preparación temporal que se utiliza al hacer un upsert MERGE o APPEND con él.

  • SelectedColumns: matriz de objetos Opción.

    La lista de nombres de columnas que se utiliza para determinar un registro coincidente al realizar una operación MERGE o APPEND con upsert.

AmazonRedshiftAdvancedOption estructura

Especifica un valor opcional al conectarse al clúster de Redshift.

Campos
  • Key— UTF -8 cuerdas.

    La clave de la opción de conexión adicional.

  • Value— UTF -8 cuerdas.

    El valor de la opción de conexión adicional.

Estructura de opción

Especifica un valor de opción.

Campos

CatalogSource Estructura S3

Especifica un almacén de datos de Amazon S3 en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La tabla de base de datos de lectura.

  • PartitionPredicate— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en "", valor vacío de forma predeterminada.

  • AdditionalOptions: un objeto S3 SourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

SourceAdditionalOptions Estructura S3

Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.

Campos
  • BoundedSize: número (largo).

    Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.

  • BoundedFiles: número (largo).

    Establece el límite superior del número objetivo de archivos que se procesarán.

CsvSource Estructura S3

Especifica un almacén de datos de valores separados por comandos (CSV) almacenado en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del almacén de datos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType— UTF -8 cadenas (valores válidos: gzip="GZIP" |bzip2="BZIP2").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions— Un conjunto de UTF -8 cadenas.

    Cadena que contiene una JSON lista de patrones globales de estilo Unix que se van a excluir. Por ejemplo, «[\" **.pdf\ "]» excluye todos los archivos. PDF

  • GroupSize— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para activar la agrupación con menos de 50 000 archivos, defina este parámetro en "inPartition». Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos maxBand milisegundos se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos de los últimos maxBand segundos que se van a guardar. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • SeparatorUTFObligatorio: -8 cadenas (valores válidos: comma="COMMA" ctrla="CTRLA" | | pipe="PIPE" | semicolon="SEMICOLON" |tab="TAB").

    Especifica el carácter delimitador. El valor predeterminado es una coma: “,”; pero puede especificarse cualquier otro carácter.

  • Escaper— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Especifica un carácter que se usar para aplicar escape. Esta opción solo se usa al leer CSV archivos. El valor predeterminado es none. Si se habilita, el carácter que va inmediatamente después se usa tal cual, excepto un pequeño conjunto de escapes conocidos (\n, \r, \t y \0).

  • QuoteCharUTFObligatorio: -8 cadenas (valores válidos: quote="QUOTE" | quillemet="QUILLEMET" | single_quote="SINGLE_QUOTE" |disabled="DISABLED").

    Especifica el carácter que se usar para aplicar comillas. El carácter predeterminado es una comilla doble: '"'. Establezca esta opción en -1 para desactivar las comillas por completo.

  • Multiline: booleano.

    Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es False, que permite una división de archivo más dinámica durante el análisis.

  • WithHeader: booleano.

    Un valor booleano que especifica si la primera línea se debe tratar como un encabezado. El valor predeterminado es False.

  • WriteHeader: booleano.

    Un valor booleano que especifica si se debe escribir el encabezado en la salida. El valor predeterminado es True.

  • SkipFirst: booleano.

    Un valor booleano que especifica si se debe omitir la primera línea de datos. El valor predeterminado es False.

  • OptimizePerformance: booleano.

    Valor booleano que especifica si se debe utilizar el SIMD CSV lector avanzado junto con los formatos de memoria en columnas basados en Apache Arrow. Disponible únicamente en AWS Glue la versión 3.0.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos de la CSV fuente S3.

irectJDBCSource Estructura en 3D

Especifica la conexión JDBC de origen directo.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre de la conexión JDBC de origen.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    La base de datos de la conexión JDBC de origen.

  • TableObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    La tabla de la conexión JDBC de origen.

  • ConnectionNameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de conexión de la JDBC fuente.

  • ConnectionTypeUTFObligatorio: -8 cadenas (valores válidos: sqlserver mysql | | oracle | postgresql |redshift).

    El tipo de conexión de la JDBC fuente.

  • RedshiftTmpDir— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    El directorio temporal de la fuente de JDBC Redshift.

Estructura S3 DirectSourceAdditionalOptions

Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.

Campos
  • BoundedSize: número (largo).

    Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.

  • BoundedFiles: número (largo).

    Establece el límite superior del número objetivo de archivos que se procesarán.

  • EnableSamplePath: booleano.

    Establece la opción para habilitar una ruta de ejemplo.

  • SamplePath— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Si está habilitado, especifica la ruta de ejemplo.

JsonSource Estructura S3

Especifica un almacén de JSON datos almacenado en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType— UTF -8 cadenas (valores válidos: gzip="GZIP" |bzip2="BZIP2").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions— Un conjunto de UTF -8 cadenas.

    Cadena que contiene una JSON lista de patrones globales de estilo Unix que se van a excluir. Por ejemplo, «[\" **.pdf\ "]» excluye todos los archivos. PDF

  • GroupSize— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para activar la agrupación con menos de 50 000 archivos, defina este parámetro en "inPartition». Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos maxBand milisegundos se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos de los últimos maxBand segundos que se van a guardar. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • JsonPath— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Una JsonPath cadena que define los JSON datos.

  • Multiline: booleano.

    Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es False, que permite una división de archivo más dinámica durante el análisis.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos de la JSON fuente S3.

ParquetSource Estructura de S3

Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.

Campos
  • NameNecesario: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • CompressionType— UTF -8 cadenas (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" |none="NONE").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • Exclusions— Un conjunto de UTF -8 cadenas.

    Cadena que contiene una JSON lista de patrones globales de estilo Unix que se van a excluir. Por ejemplo, «[\" **.pdf\ "]» excluye todos los archivos. PDF

  • GroupSize— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada, "groupFiles" debe establecerse en "inPartition" para que este valor surta efecto.

  • GroupFiles— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para activar la agrupación con menos de 50 000 archivos, defina este parámetro en "inPartition». Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en "none".

  • Recurse: booleano.

    Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.

  • MaxBand: número (entero), cero como máximo.

    Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Los archivos con marcas de tiempo de modificación que se encuentran dentro de los últimos maxBand milisegundos se rastrean especialmente cuando se utilizan JobBookmarks para tener en cuenta la coherencia eventual de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.

  • MaxFilesInBand: número (entero), cero como máximo.

    Esta opción especifica el número máximo de archivos de los últimos maxBand segundos que se van a guardar. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del origen de S3 con formato Parquet.

DeltaSource Estructura S3

Especifica una fuente de datos de Delta Lake almacenada en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen del Delta Lake.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica las opciones adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

CatalogDeltaSource Estructura S3

Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos. La fuente de datos debe almacenarse en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos de Delta Lake.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

CatalogDeltaSource estructura

Especifica una fuente de datos de Delta Lake que está registrada en el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos de Delta Lake.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalDeltaOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Delta Lake.

HudiSource Estructura S3

Especifica una fuente de datos de Hudi almacenada en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de Hudi.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    Una lista de las rutas de Amazon S3 desde las que se leerá.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • AdditionalOptions: un objeto S3 DirectSourceAdditionalOptions.

    Especifica las opciones adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

CatalogHudiSource Estructura S3

Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos. La fuente de datos de Hudi debe almacenarse en. Amazon S3

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de datos de Hudi.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

CatalogHudiSource estructura

Especifica una fuente de datos de Hudi que está registrada en el catálogo de AWS Glue datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de datos de Hudi.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

  • AdditionalHudiOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para el origen de Hudi.

Estructura ynamoDBCatalog de origen D.

Especifica una fuente de datos de DynamoDB en AWS Glue el catálogo de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

RelationalCatalogSource estructura

Especifica un origen de datos de base de datos relacional en AWS Glue Data Catalog.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en la base de datos de lectura.

JDBCConnectorTargetestructura

Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • ConnectionNameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la conexión asociada al conector.

  • ConnectionTableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla en el destino de datos.

  • ConnectorNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de un conector que se utilizará.

  • ConnectionTypeObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un destino de datos. JDBC

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de -8 cadenas que coincide con. UTF Custom string pattern #43

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del JDBC objetivo.

SparkConnectorTarget estructura

Especifica un destino que utiliza un conector de Apache Spark.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • ConnectionNameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de una conexión de un conector de Apache Spark.

  • ConnectorNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de un conector de Apache Spark.

  • ConnectionTypeObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Opciones de conexión adicionales para el conector.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos del destino de spark personalizado.

BasicCatalogTarget estructura

Especifica un destino que utiliza una tabla AWS Glue de catálogo de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Las claves de partición utilizadas para distribuir los datos entre varias particiones o fragmentos en función de una clave o conjunto de claves específicos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #43

    La base de datos que contiene la tabla que desea utilizar como destino. Esta base de datos ya debe existir en el Catálogo de datos.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La tabla que define el esquema de los datos de salida. Esta tabla ya debe existir en el Catálogo de datos.

M: Estructura ySQLCatalog objetivo

Especifica un objetivo que usa MySQL.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

P: Estructura ostgreSQLCatalog objetivo

Especifica un objetivo que usa PostgresSQL.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

O Estructura racleSQLCatalog objetivo

Especifica un objetivo que utiliza OracleSQL.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

icrosoftSQLServerCatalogTarget Estructura M

Especifica un destino que usa MicrosoftSQL.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

RedshiftTarget estructura

Especifica un destino que utiliza Amazon Redshift.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • DatabaseObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

  • RedshiftTmpDir— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.

  • TmpDirIAMRole— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El IAM rol con permisos.

  • UpsertRedshiftOptions: un objeto UpsertRedshiftTargetOptions.

    Conjunto de opciones para configurar una operación upsert al escribir en un destino de Redshift.

AmazonRedshiftTarget estructura

Especifica un destino de Amazon Redshift.

Campos
  • Name— UTF -8 cuerdas, que coinciden conCustom string pattern #45.

    Nombre del destino de Amazon Redshift.

  • Data: un objeto AmazonRedshiftNodeData.

    Especifica los datos del nodo de destino de Amazon Redshift.

  • Inputs— Una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

UpsertRedshiftTargetOptions estructura

Opciones para configurar una operación upsert al escribir en un destino de Redshift.

Campos
  • TableLocation— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Ubicación física de la tabla de Redshift.

  • ConnectionName— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El nombre de la conexión que se utilizará para escribir en Redshift.

  • UpsertKeys— Un conjunto de UTF -8 cadenas.

    Claves utilizadas para determinar si se debe realizar una actualización o una inserción.

CatalogTarget Estructura S3

Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • TableObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

GlueParquetTarget Estructura S3

Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.

Campos
  • NameNecesario: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • PathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    Una única ruta de Amazon S3 de escritura.

  • Compression— UTF -8 cadenas (valores válidos: snappy="SNAPPY" | lzo="LZO" | gzip="GZIP" | uncompressed="UNCOMPRESSED" |none="NONE").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

CatalogSchemaChangePolicy estructura

Una política que especifica los comportamientos de actualización del rastreador.

Campos
  • EnableUpdateCatalog: booleano.

    Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.

  • UpdateBehavior— UTF -8 cadenas (valores válidos: UPDATE_IN_DATABASE |LOG).

    Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.

DirectTarget Estructura S3

Especifica un destino de datos que escribe en Amazon S3.

Campos
  • NameNecesario: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • PathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    Una única ruta de Amazon S3 de escritura.

  • Compression— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • FormatUTFObligatorio: -8 cadenas (valores válidos: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | | parquet="PARQUET" | hudi="HUDI" |delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

HudiCatalogTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Hudi del catálogo de AWS Glue datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • TableObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • AdditionalOptionsObligatorio: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

HudiDirectTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Hudi. Amazon S3

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    La ruta de Amazon S3 del origen de datos de Hudi en la que desea escribir.

  • CompressionUTFObligatorio: -8 cadenas (valores válidos: gzip="GZIP" | lzo="LZO" | uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • FormatUTFObligatorio: -8 cadenas (valores válidos: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | | parquet="PARQUET" | hudi="HUDI" |delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • AdditionalOptionsObligatorio: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DeltaCatalogTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Delta Lake del catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • TableObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DeltaDirectTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Delta Lake en Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • PathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    La ruta de Amazon S3 del origen de datos de Delta Lake en la que desea escribir.

  • CompressionObligatorio: UTF -8 cadenas (valores válidos: uncompressed="UNCOMPRESSED" |snappy="SNAPPY").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • FormatUTFObligatorio: -8 cadenas (valores válidos: json="JSON" csv="CSV" | avro="AVRO" | orc="ORC" | | parquet="PARQUET" | hudi="HUDI" |delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DirectSchemaChangePolicy estructura

Una política que especifica los comportamientos de actualización del rastreador.

Campos
  • EnableUpdateCatalog: booleano.

    Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.

  • UpdateBehavior— UTF -8 cadenas (valores válidos: UPDATE_IN_DATABASE |LOG).

    Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.

  • Table— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Especifica la tabla de la base de datos a la que se aplica la política de cambio de esquema.

  • Database— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Especifica la base de datos a la que se aplica la política de cambio de esquema.

ApplyMapping estructura

Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Mapping (obligatorio): una matriz de objetos Correspondencia.

    Especifica la asignación de claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos.

Estructura de asignación

Especifica la asignación de claves de propiedad de datos.

Campos
  • ToKey— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Después de aplicar la asignación, cuál debe ser el nombre de la columna. Puede ser igual que FromPath.

  • FromPath— Un conjunto de UTF -8 cadenas.

    La tabla o columna que se va a modificar.

  • FromType— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    El tipo de datos que se van a modificar.

  • ToType— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El tipo de datos al que se van a modificar los datos.

  • Dropped: booleano.

    Si se establece en verdadero, se quita la columna.

  • Children: matriz de objetos Correspondencia.

    Solo aplicable a estructuras de datos anidadas. Si desea cambiar la estructura principal, pero también una de las secundarias, puede rellenar esta estructura de datos. También es Mapping, pero su FromPath será el FromPath de la principal más el FromPath de esta estructura.

    Para las partes secundarias, suponga que tiene la estructura:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

    Puede especificar una Mapping que tiene este aspecto:

    { "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }

SelectFields estructura

Especifica una transformación que elige las claves de propiedad de datos que desea conservar.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    JSONRuta a una variable de la estructura de datos.

DropFields estructura

Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    JSONRuta a una variable de la estructura de datos.

RenameField estructura

Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • SourcePathObligatorio: una matriz de UTF -8 cadenas.

    JSONRuta a una variable de la estructura de datos de los datos de origen.

  • TargetPathObligatorio: una matriz de UTF -8 cadenas.

    JSONRuta a una variable de la estructura de datos de los datos de destino.

Estructura Spigot

Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • PathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    Una ruta en Amazon S3 en la que la transformación escribirá un subconjunto de registros del conjunto de datos en un JSON archivo de un bucket de Amazon S3.

  • Topk: número (entero), 100 como máximo.

    Especifica un número de registros que se escribirán a partir del principio del conjunto de datos.

  • Prob: número (doble), 1 como máximo.

    La probabilidad (un valor decimal con un valor máximo de 1) de seleccionar un registro determinado. Un valor 1 indica que cada fila leída del conjunto de datos debe incluirse en la salida de ejemplo.

Estructura Join

Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 2 ni más de 2 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • JoinTypeUTFObligatorio: -8 cadenas (valores válidos: equijoin="EQUIJOIN" left="LEFT" | right="RIGHT" | | outer="OUTER" | leftsemi="LEFT_SEMI" |leftanti="LEFT_ANTI").

    Especifica el tipo de unión que se va a realizar en los conjuntos de datos.

  • Columns: Obligatorio: una matriz de objetos JoinColumn, con 2 estructuras como mínimo y 2 estructuras como máximo.

    Una lista de las dos columnas que se van a unir.

JoinColumn estructura

Especifica una columna que se va a unir.

Campos
  • FromObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La columna que se va a unir.

  • KeysObligatorio: una matriz de UTF -8 cadenas.

    La clave de la columna que se va a unir.

SplitFields estructura

Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames. La salida es una recopilación de DynamicFrames: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • PathsObligatorio: una matriz de UTF -8 cadenas.

    JSONRuta a una variable de la estructura de datos.

SelectFromCollection estructura

Especifica una transformación que elige un DynamicFrame de una recopilación de DynamicFrames. El resultado es el DynamicFrame seleccionado

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • IndexObligatorio: número (entero), cero como máximo.

    El índice del DynamicFrame que se va a seleccionar.

FillMissingValues estructura

Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • ImputedPathObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    Una JSON ruta a una variable de la estructura de datos del conjunto de datos que se imputa.

  • FilledPath— UTF -8 cadenas, que coinciden con. Custom string pattern #43

    Una JSON ruta a una variable de la estructura de datos del conjunto de datos que se rellena.

Estructura Filter

Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • LogicalOperatorObligatorio: UTF -8 cadenas (valores válidos: AND |OR).

    El operador utilizado para filtrar filas mediante la comparación del valor de clave con un valor especificado.

  • Filters (obligatorio): una matriz de objetos FilterExpression.

    Especifica una expresión de filtro.

FilterExpression estructura

Especifica una expresión de filtro.

Campos
  • OperationObligatorio: UTF -8 cadenas (valores válidos: EQ | LT | GT | LTE | GTE | | REGEX |ISNULL).

    El tipo de operación que se va a realizar en la expresión.

  • Negated: booleano.

    Si se va a negar la expresión.

  • Values (obligatorio): una matriz de objetos FilterValue.

    Una lista de valores de filtro.

FilterValue estructura

Representa una única entrada en la lista de valores de una FilterExpression.

Campos
  • TypeObligatorio: UTF -8 cadenas (valores válidos: COLUMNEXTRACTED |CONSTANT).

    El tipo de valor de filtro.

  • ValueObligatorio: una matriz de UTF -8 cadenas.

    El valor que se va a asociar.

CustomCode estructura

Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una colección de DynamicFrames.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, al menos 1 cadena.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • CodeObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #36.

    El código personalizado que se utiliza para llevar a cabo la transformación de datos.

  • ClassNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre definido para la clase de nodo de código personalizado.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para la transformación de código personalizada.

SQLEstructura de chispa

Especifica una transformación en la que se introduce una SQL consulta con la SQL sintaxis de Spark para transformar los datos. La salida es un único DynamicFrame.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, al menos 1 cadena.

    Las entradas de datos identificadas por los nombres de sus nodos. Puede asociar un nombre de tabla a cada nodo de entrada para usarlo en la SQL consulta. El nombre que elijas debe cumplir con las restricciones de SQL nomenclatura de Spark.

  • SqlQueryObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #44.

    Una SQL consulta que debe usar la SQL sintaxis de Spark y devolver un único conjunto de datos.

  • SqlAliases (obligatorio): una matriz de objetos SqlAlias.

    Una lista de alias. Un alias te permite especificar qué nombre usar en SQL una entrada determinada. Por ejemplo, tiene una fuente de datos llamada "»MyDataSource. Si especificas From como y Alias como MyDataSource SqlName, entonces en tu SQL puedes hacer lo siguiente:

    select * from SqlName

    y eso obtiene datos de MyDataSource.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos de la SQL transformación de Spark.

SqlAlias estructura

Representa una única entrada en la lista de valores de SqlAliases.

Campos
  • FromObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #42.

    Una tabla o columna de una tabla.

  • AliasObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    Un nombre temporal dado a una tabla o a una columna de una tabla.

DropNullFields estructura

Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas «nulas», los enteros -1 u otros marcadores de posición, como ceros, no se reconocen automáticamente como nulos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan con. Custom string pattern #45

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • NullCheckBoxList: un objeto NullCheckBoxList.

    Una estructura que representa si ciertos valores se reconocen como valores nulos para su eliminación.

  • NullTextList: matriz de objetos NullValueField, con 50 estructuras como máximo.

    Estructura que especifica una lista de NullValueField estructuras que representan un valor nulo personalizado, como cero u otro valor, que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.

    La transformación DropNullFields elimina los valores nulos personalizados solo si tanto el valor del marcador de posición nulo como el tipo de datos coinciden con los datos.

NullCheckBoxList estructura

Representa si ciertos valores se reconocen como valores nulos para su eliminación.

Campos
  • IsEmpty: booleano.

    Especifica que una cadena vacía se considera un valor nulo.

  • IsNullString: booleano.

    Especifica que un valor que deletrea la palabra “nulo” se considera un valor nulo.

  • IsNegOne: booleano.

    Especifica que un valor entero de -1 se considera un valor nulo.

NullValueField estructura

Representa un valor nulo personalizado, como ceros u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.

Campos
  • ValueObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El valor del marcador de posición nulo.

  • Datatype: obligatorio: objeto Tipo de datos.

    El tipo de datos del valor.

Estructura Datatype

Una estructura que representa el tipo de datos del valor.

Campos

Estructura Merge

Especifica una transformación que fusiona un DynamicFrame con una instancia provisional de DynamicFrame en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 2 ni más de 2 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • SourceObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #42.

    El DynamicFrame de origen que se fusionará con un DynamicFrame de instancia provisional.

  • PrimaryKeysObligatorio: una matriz de UTF -8 cadenas.

    La lista de campos de clave principal para hacer coincidir los registros de los marcos dinámicos de origen y provisionales.

Estructura Union

Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 2 ni más de 2 cadenas.

    Las entradas del ID de nodo a la transformación.

  • UnionTypeObligatorio: UTF -8 cadenas (valores válidos: ALL |DISTINCT).

    Indica el tipo de transformación de combinación.

    Especifique ALL unir todas las filas de las fuentes de datos a las resultantes DynamicFrame. La combinación resultante no elimina las filas duplicadas.

    Especifique DISTINCT si desea eliminar las filas duplicadas del resultado DynamicFrame.

PIIDetectionestructura

Especifica una transformación que identifica, elimina o enmascara PII los datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas del ID de nodo a la transformación.

  • PiiTypeUTFObligatorio: -8 cadenas (valores válidos: RowAudit | RowMasking | ColumnAudit |ColumnMasking).

    Indica el tipo de PIIDetection transformación.

  • EntityTypesToDetectObligatorio: una matriz de UTF -8 cadenas.

    Indica los tipos de entidades que la PIIDetection transformación identificará como PII datos.

    PIIentre las entidades de tipo se incluyen: PERSON USA USA _ NAME DATE SNN EMAILITIN,, USA PASSPORT _NUMBER, PHONE _NUMBER, BANK _ACCOUNT, MAC IP_ ADDRESSADDRESS, USA _, CPT _CODE, USA HCPCS _CODE, USA _ NATIONAL DRUG _CODE, USA _ MEDICARE _IDENTIFIER, BENEFICIARY _ USA HEALTH _, INSURANCE CLAIM _ _ NUMBERCARD, CREDIT USA _ NATIONAL_ PROVIDER _IDENTIFIER, USA _ DEA _NUMBER, USA _ DRIVING LICENSE

  • OutputColumnName— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Indica el nombre de columna de salida que contendrá cualquier tipo de entidad detectado en esa fila.

  • SampleFraction: número (doble), 1 como máximo.

    Indica la fracción de los datos que se van a muestrear al buscar PII entidades.

  • ThresholdFraction: número (doble), 1 como máximo.

    Indica la fracción de los datos que debe cumplirse para que una columna se identifique como PII datos.

  • MaskValue— UTF -8 cadenas, de una longitud no superior a 256 bytes, que coinciden conCustom string pattern #40.

    Indica el valor que sustituirá a la entidad detectada.

Estructura Aggregate

Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Especifica los campos y filas que se utilizarán como entradas para la transformación agregada.

  • GroupsObligatorio: una matriz de UTF -8 cadenas.

    Especifica los campos para agrupar.

  • Aggs: obligatorio: una matriz de objetos AggregateOperation, con 1 estructura como mínimo y 30 estructuras como máximo.

    Especifica las funciones agregadas que se van a realizar en campos especificados.

DropDuplicates estructura

Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de transformación.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de datos identificadas por los nombres de sus nodos.

  • Columns— Un conjunto de UTF -8 cadenas.

    Nombre de las columnas que se van a fusionar o eliminar si se repiten.

GovernedCatalogTarget estructura

Especifica un destino de datos que escribe en Amazon S3 mediante el catálogo AWS Glue de datos.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del destino de datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys— Un conjunto de UTF -8 cadenas.

    Especifica la partición nativa mediante una secuencia de claves.

  • TableObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    El nombre de la tabla de la base de datos de escritura.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El nombre de la base de datos de escritura.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del catálogo gobernado.

GovernedCatalogSource estructura

Especifica el banco de datos del catálogo AWS Glue de datos regulado.

Campos
  • NameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #45.

    El nombre del almacén de datos.

  • DatabaseObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La base de datos de lectura.

  • TableObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    La tabla de base de datos de lectura.

  • PartitionPredicate— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en "", valor vacío de forma predeterminada.

  • AdditionalOptions: un objeto S3 SourceAdditionalOptions.

    Especifica opciones de conexión adicionales.

AggregateOperation estructura

Especifica el conjunto de parámetros necesarios para llevar a cabo la agregación en la transformación de agregación.

Campos
  • ColumnObligatorio: una matriz de UTF -8 cadenas.

    Especifica la columna del conjunto de datos en la que se aplicará la función de agregación.

  • AggFuncUTFObligatorio: -8 cadenas (valores válidos: avg countDistinct | count | first | last | kurtosis | max | min | skewness | stddev_samp | | stddev_pop | sum | sumDistinct | var_samp |var_pop).

    Especifica la función de agregación que se aplicará.

    Entre las posibles funciones de agregación se incluyen: avgcountDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, var_pop sumDistinct

GlueSchema estructura

Especifica un esquema definido por el usuario cuando un esquema no puede determinarse mediante AWS Glue.

Campos
  • Columns: matriz de objetos GlueStudioSchemaColumn.

    Especifica las definiciones de columnas que componen un AWS Glue esquema.

GlueStudioSchemaColumn estructura

Especifica una sola columna en una definición AWS Glue de esquema.

Campos
  • NameObligatorio: UTF -8 cadenas, de no más de 1024 bytes, que coincidan conSingle-line string pattern.

    El nombre de la columna en el esquema de AWS Glue Studio.

  • Type— UTF -8 cadenas, de una longitud no superior a 131072 bytes, que coinciden con. Single-line string pattern

    El tipo de colmena de esta columna del AWS Glue esquema de Studio.

GlueStudioColumn estructura

Especifica una sola columna en AWS Glue Studio.

Campos
  • KeyObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    La clave de la columna en AWS Glue Studio.

  • FullPathObligatorio: un conjunto de UTF -8 cadenas.

    TThelleno URL de la columna en AWS Glue Studio.

  • TypeUTFObligatorio: -8 cadenas (valores válidos: array="ARRAY" bigint="BIGINT" bigint array="BIGINT_ARRAY" | binary="BINARY" | binary array="BINARY_ARRAY" | boolean="BOOLEAN" | boolean array="BOOLEAN_ARRAY" | byte="BYTE" | byte array="BYTE_ARRAY" | char="CHAR" | char array="CHAR_ARRAY" | choice="CHOICE" | choice array="CHOICE_ARRAY" | date="DATE" | date array="DATE_ARRAY" | decimal="DECIMAL" | decimal array="DECIMAL_ARRAY" | double="DOUBLE" | double array="DOUBLE_ARRAY" | enum="ENUM" | enum array="ENUM_ARRAY" | float="FLOAT" | float array="FLOAT_ARRAY" | int="INT" | int array="INT_ARRAY" | interval="INTERVAL" | interval array="INTERVAL_ARRAY" | long="LONG" | long array="LONG_ARRAY" | object="OBJECT" | short="SHORT" | short array="SHORT_ARRAY" | smallint="SMALLINT"| smallint array="SMALLINT_ARRAY" | string="STRING" | string array="STRING_ARRAY" | | timestamp="TIMESTAMP" | timestamp array="TIMESTAMP_ARRAY" | tinyint="TINYINT" | tinyint array="TINYINT_ARRAY" | varchar="VARCHAR" | varchar array="VARCHAR_ARRAY" | | null="NULL" | unknown="UNKNOWN" |unknown array="UNKNOWN_ARRAY").

    TThetipo de columna en AWS Glue Studio.

  • Children: un conjunto de estructuras.

    TThehijos de la columna principal en AWS Glue Studio.

DynamicTransform estructura

Especifica el conjunto de parámetros necesarios para hacer la transformación dinámica.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    Especifica el nombre de la transformación dinámica.

  • TransformNameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    Especifica el nombre de la transformación dinámica tal como aparece en el editor visual de AWS Glue Studio.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadena.

    Especifica las entradas necesarias para la transformación dinámica.

  • Parameters: matriz de objetos TransformConfigParameter.

    Especifica los parámetros de la transformación dinámica.

  • FunctionNameObligatorio: UTF -8 cadenas, que coincidan conCustom string pattern #43.

    Especifica el nombre de la función de la transformación dinámica.

  • PathObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    Especifica la ruta de los archivos de origen y de configuración de la transformación dinámica.

  • Version— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Este campo no se utiliza y quedará en desuso en la versión futura.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para la transformación dinámica.

TransformConfigParameter estructura

Especifica los parámetros de la transformación dinámica en el archivo de configuración.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    Especifica el nombre del parámetro de la transformación dinámica en el archivo de configuración.

  • TypeUTFObligatorio: -8 cadenas (valores válidos: str="STR" int="INT" | float="FLOAT" | complex="COMPLEX" | | bool="BOOL" | list="LIST" |null="NULL").

    Especifica el tipo de parámetro de la transformación dinámica en el archivo de configuración.

  • ValidationRule— UTF -8 cadenas, que coinciden conCustom string pattern #43.

    Especifica la regla de validación de la transformación dinámica en el archivo de configuración.

  • ValidationMessage— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    Especifica el mensaje de validación de la transformación dinámica en el archivo de configuración.

  • Value— Un conjunto de UTF -8 cadenas.

    Especifica el valor del parámetro de la transformación dinámica en el archivo de configuración.

  • ListType— UTF -8 cadenas (valores válidos: str="STR" | int="INT" | float="FLOAT" | complex="COMPLEX" | bool="BOOL" | list="LIST" |null="NULL").

    Especifica el tipo de lista del parámetro de la transformación dinámica en el archivo de configuración.

  • IsOptional: booleano.

    Especifica si es opcional o no el parámetro de la transformación dinámica en el archivo de configuración.

EvaluateDataQuality estructura

Especifica los criterios de evaluación de la calidad de los datos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre de la evaluación de la calidad de los datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Las entradas de la evaluación de la calidad de los datos.

  • RulesetObligatorio: UTF -8 cadenas, de no menos de 1 ni más de 65536 bytes de longitud, que coincidan con. Custom string pattern #41

    El conjunto de reglas para la evaluación de la calidad de los datos.

  • Output— UTF -8 cadenas (valores válidos: PrimaryInput |EvaluationResults).

    La salida de la evaluación de la calidad de los datos.

  • PublishingOptions: un objeto DQResultsPublishingOptions.

    Opciones para configurar cómo se publican los resultados.

  • StopJobOnFailureOptions: un objeto DQStopJobOnFailureOptions.

    Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

DQResultsPublishingOptionsestructura

Opciones para configurar cómo se publican los resultados de la evaluación de la calidad de los datos.

Campos
  • EvaluationContext— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    El contexto de la evaluación.

  • ResultsS3Prefix— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    El prefijo de Amazon S3 se antepuso a los resultados.

  • CloudWatchMetricsEnabled: booleano.

    Habilite las métricas de los resultados de la calidad de datos.

  • ResultsPublishingEnabled: booleano.

    Habilite la publicación de los resultados de la calidad de datos.

DQStopJobOnFailureOptionsestructura

Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

Campos
  • StopJobOnFailureTiming— UTF -8 cadenas (valores válidos: Immediate |AfterDataLoad).

    Cuándo detener el trabajo si se produce un error en la evaluación de la calidad de los datos. Las opciones son Inmediato o AfterDataLoad.

EvaluateDataQualityMultiFrame estructura

Especifica los criterios de evaluación de la calidad de los datos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre de la evaluación de la calidad de los datos.

  • InputsObligatorio: una matriz de UTF -8 cadenas, al menos 1 cadena.

    Las entradas de la evaluación de la calidad de los datos. La primera entrada en esta lista es el origen de datos principal.

  • AdditionalDataSources: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #45.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Los alias de todas los orígenes de datos excepto las principales.

  • RulesetObligatorio: UTF -8 cadenas, de no menos de 1 ni más de 65536 bytes de longitud, que coincidan con. Custom string pattern #41

    El conjunto de reglas para la evaluación de la calidad de los datos.

  • PublishingOptions: un objeto DQResultsPublishingOptions.

    Opciones para configurar cómo se publican los resultados.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena de UTF -8 (valores válidos: performanceTuning.caching="CacheOption" |observations.scope="ObservationsOption").

    Cada valor es una cadena de UTF -8.

    Opciones para configurar el comportamiento de la transformación en tiempo de ejecución.

  • StopJobOnFailureOptions: un objeto DQStopJobOnFailureOptions.

    Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.

Estructura de receta

Un nodo de AWS Glue Studio que usa una AWS Glue DataBrew receta en los AWS Glue trabajos.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del nodo de AWS Glue Studio.

  • InputsObligatorio: una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadena.

    Los nodos de entrada al nodo de la receta, identificados mediante el ID.

  • RecipeReference: un objeto RecipeReference.

    Una referencia a la DataBrew receta utilizada por el nodo.

  • RecipeSteps: matriz de objetos RecipeStep.

    Pasos de transformación utilizados en el nodo de receta.

RecipeReference estructura

Referencia a una AWS Glue DataBrew receta.

Campos
  • RecipeArnObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    El ARN de la DataBrew receta.

  • RecipeVersionObligatorio: UTF -8 cadenas, no menos de 1 ni más de 16 bytes de longitud.

    El RecipeVersion de la DataBrew receta.

SnowflakeNodeData estructura

Especifica la configuración de los nodos de Snowflake en AWS Glue Studio.

Campos
  • SourceType— UTF -8 cadenas, que coinciden con. Custom string pattern #42

    Especifica cómo se especifican los datos recuperados. Valores válidos: "table", "query".

  • Connection: un objeto Opción.

    Especifica una conexión AWS Glue de catálogo de datos a un punto final de Snowflake.

  • Schema— UTF -8 cadenas.

    Especifica un esquema de base de datos de Snowflake para que lo utilice el nodo.

  • Table— UTF -8 cuerdas.

    Especifica una tabla de Snowflake para que lo utilice el nodo.

  • Database— UTF -8 cuerdas.

    Especifica una base de datos de Snowflake para que lo utilice el nodo.

  • TempDir— UTF -8 cuerdas, que coinciden conCustom string pattern #43.

    En la actualidad no se utiliza.

  • IamRole: un objeto Opción.

    En la actualidad no se utiliza.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Cada valor es una cadena de UTF -8, que coincide conCustom string pattern #43.

    Especifica opciones adicionales que se pasan al conector de Snowflake. Si las opciones se especifican en otra parte de este nodo, esto tendrá prioridad.

  • SampleQuery— UTF -8 cadenas.

    SQLCadena utilizada para recuperar datos con el tipo de query fuente.

  • PreAction— -8 cadenasUTF.

    Una SQL cadena ejecutada antes de que el conector Snowflake lleve a cabo sus acciones estándar.

  • PostAction— UTF -8 cuerdas.

    Una SQL cadena que se ejecuta después de que el conector Snowflake realice sus acciones estándar.

  • Action— UTF -8 cuerdas.

    Especifica qué acción se debe realizar al escribir en una tabla con datos preexistentes. Valores válidos: append, merge, truncate, drop.

  • Upsert: booleano.

    Se utiliza cuando Action es append. Especifica el comportamiento de la resolución cuando ya existe una fila. Si es verdadero, se actualizarán las filas preexistentes. Si es falso, se insertarán esas filas.

  • MergeAction— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    Especifica una acción de combinación. Valores válidos: simple, custom. Si es simple, el comportamiento de combinación se define mediante MergeWhenMatched y MergeWhenNotMatched. Si es personalizado, se define mediante MergeClause.

  • MergeWhenMatched— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    Especifica cómo resolver los registros que coinciden con datos preexistentes al combinarlos. Valores válidos: update, delete.

  • MergeWhenNotMatched— UTF -8 cuerdas, que coinciden conCustom string pattern #42.

    Especifica cómo procesar los registros que no coinciden con los datos preexistentes al combinarlos. Valores válidos: insert, none.

  • MergeClause— UTF -8 cuerdas.

    Una SQL declaración que especifica un comportamiento de combinación personalizado.

  • StagingTable— UTF -8 cadenas.

    El nombre de una tabla de preparación que se utiliza al realizar acciones merge o upsert append. Los datos se escriben en esta tabla y, a continuación, se mueven a table mediante una acción posterior generada.

  • SelectedColumns: matriz de objetos Opción.

    Especifica las columnas combinadas para identificar un registro al detectar coincidencias de combinaciones y alteraciones. Una lista de estructuras con claves value, label y description. Cada estructura describe una columna.

  • AutoPushdown: booleano.

    Especifica si está habilitada la función automática de consultas pushdown. Si la función pushdown está habilitada, cuando se ejecuta una consulta en Spark, si parte de la consulta se puede “enviar” al servidor de Snowflake, se empuja hacia abajo. Esto mejora el rendimiento de algunas consultas.

  • TableSchema: matriz de objetos Opción.

    Define manualmente el esquema de destino del nodo. Una lista de estructuras con claves value, label y description. Cada estructura describe una columna.

SnowflakeSource estructura

Especifica un origen de datos de Snowflake.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de datos de Snowflake.

  • Data: obligatorio: objeto SnowflakeNodeData.

    Configuración del origen de datos de Snowflake.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica los esquemas definidos por el usuario para los datos de salida.

SnowflakeTarget estructura

Especifica un destino de Snowflake.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre del origen de Snowflake.

  • Data: obligatorio: objeto SnowflakeNodeData.

    Especifica los datos del nodo de destino de Snowflake.

  • Inputs— Una matriz de UTF -8 cadenas, no menos de 1 ni más de 1 cadenas.

    Los nodos que son entradas para el destino de datos.

ConnectorDataSource estructura

Especifica una fuente generada con opciones de conexión estándar.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre de este nodo de origen.

  • ConnectionTypeObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    ElconnectionType, tal como se proporciona en la AWS Glue biblioteca subyacente. Este tipo de nodo admite los siguientes tipos de conexión:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataObligatorio: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8.

    Cada valor es una cadena de UTF -8.

    Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la AWS Glue documentación.

  • OutputSchemas: matriz de objetos GlueSchema.

    Especifica el esquema de datos para este origen.

ConnectorDataTarget estructura

Especifica un destino generado con opciones de conexión estándar.

Campos
  • NameObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #45.

    El nombre de este nodo de destino.

  • ConnectionTypeObligatorio: UTF -8 cuerdas, que coincidan conCustom string pattern #43.

    ElconnectionType, tal como se proporciona en la AWS Glue biblioteca subyacente. Este tipo de nodo admite los siguientes tipos de conexión:

    • opensearch

    • azuresql

    • azurecosmos

    • bigquery

    • saphana

    • teradata

    • vertica

  • DataObligatorio: matriz de mapas de pares clave-valor.

    Cada tecla es una cadena de UTF -8.

    Cada valor es una cadena de UTF -8.

    Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la AWS Glue documentación.

  • Inputs— Un conjunto de UTF -8 cadenas, no menos de 1 ni más de 1 cadena.

    Los nodos que son entradas para el destino de datos.

RecipeStep estructura

Un paso de receta utilizado en un nodo de recetas de preparación de datos de AWS Glue Studio.

Campos
  • Action: obligatorio: objeto RecipeAction.

    Acción de transformación del paso de la receta.

  • ConditionExpressions: matriz de objetos ConditionExpression.

    Expresiones de condición para el paso de la receta.

RecipeAction estructura

Acciones definidas en el nodo de recetas de preparación de datos de AWS Glue Studio.

Campos
  • OperationObligatorio: UTF -8 cadenas, de no menos de 1 ni más de 128 bytes de longitud, que coincidan conCustom string pattern #38.

    Funcionamiento de la acción de la receta.

  • Parameters: matriz de mapas de pares clave-valor.

    Cada clave es una cadena de UTF -8 caracteres, de no menos de 1 ni más de 128 bytes de longitud, que coincide conCustom string pattern #39.

    Cada valor es una cadena de UTF -8, con una longitud no inferior a 1 ni superior a 32768 bytes.

    Parámetros de la acción de la receta.

ConditionExpression estructura

Expresión de condición definida en el nodo de recetas de preparación de datos de AWS Glue Studio.

Campos
  • ConditionObligatorio: UTF -8 cadenas, de no menos de 1 ni más de 128 bytes de longitud, que coincidan conCustom string pattern #38.

    Condición de la expresión de condición.

  • Value— UTF -8 cadenas, con una longitud máxima de 1024 bytes.

    Valor de la expresión de condición.

  • TargetColumnObligatorio: UTF -8 cadenas, de no menos de 1 ni más de 1024 bytes de longitud.

    Columna de destino de las expresiones de condición.