La API de Visual Job le permite crear trabajos de integración de datos mediante la API de AWS Glue a partir de un objeto JSON que representa una configuración visual de un trabajo de AWS Glue.
Se proporciona una lista de CodeGenConfigurationNodes
a una API de creación o actualización de trabajos a fin de registrar un DAG en AWS Glue Studio para el trabajo creado y generar el código asociado.
Tipos de datos
Estructura CodeGenConfigurationNode
CodeGenConfigurationNode
enumera todos los tipos de nodos válidos. Se puede completar una y solo una de sus variables miembro.
Campos
-
AthenaConnectorSource
: un objeto AthenaConnectorSource.Especifica un conector a un origen de datos de Amazon Athena.
-
JDBCConnectorSource
: un objeto JDBCConnectorSource.Especifica un conector a un origen de datos JDBC.
-
SparkConnectorSource
: un objeto SparkConnectorSource.Especifica un conector a un origen de datos de Apache Spark.
-
CatalogSource
: un objeto CatalogSource.Especifica un almacén de datos en AWS Glue Data Catalog.
-
RedshiftSource
: un objeto RedshiftSource.Especifica un almacén de datos de Amazon Redshift.
-
S3CatalogSource
: un objeto S3CatalogSource.Especifica un almacén de datos de Amazon S3 en AWS Glue Data Catalog.
-
S3CsvSource
: un objeto S3CsvSource.Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.
-
S3JsonSource
: un objeto S3JsonSource.Especifica un almacén de datos JSON almacenado en Amazon S3.
-
S3ParquetSource
: un objeto S3ParquetSource.Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.
-
RelationalCatalogSource
: un objeto RelationalCatalogSource.Especifica un almacén de datos de catálogo relacional en el Catálogo de datos de AWS Glue.
-
DynamoDBCatalogSource
: un objeto DynamoDBCatalogSource.Especifica un almacén de datos del catálogo de DynamoDBC en el Catálogo de datos de AWS Glue.
-
JDBCConnectorTarget
: un objeto JDBCConnectorTarget.Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
-
SparkConnectorTarget
: un objeto SparkConnectorTarget.Especifica un destino que utiliza un conector de Apache Spark.
-
CatalogTarget
: un objeto BasicCatalogTarget.Especifica un destino que utiliza una tabla de AWS Glue Data Catalog.
-
RedshiftTarget
: un objeto RedshiftTarget.Especifica un destino que utiliza Amazon Redshift.
-
S3CatalogTarget
: un objeto S3CatalogTarget.Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
-
S3GlueParquetTarget
: un objeto S3GlueParquetTarget.Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
-
S3DirectTarget
: un objeto S3DirectTarget.Especifica un destino de datos que escribe en Amazon S3.
-
ApplyMapping
: un objeto ApplyMapping.Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.
-
SelectFields
: un objeto SelectFields.Especifica una transformación que elige las claves de propiedad de datos que desea conservar.
-
DropFields
: un objeto DropFields.Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.
-
RenameField
: un objeto RenameField.Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.
-
Spigot
: un objeto Spigot.Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.
-
Join
: un objeto Join.Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.
-
SplitFields
: un objeto SplitFields.Especifica una transformación que divide las claves de propiedad de datos en dos
DynamicFrames
. La salida es una recopilación deDynamicFrames
: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes. -
SelectFromCollection
: un objeto SelectFromCollection.Especifica una transformación que elige un
DynamicFrame
de una recopilación deDynamicFrames
. El resultado es elDynamicFrame
seleccionado -
FillMissingValues
: un objeto FillMissingValues.Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.
-
Filter
: un objeto Filtro.Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.
-
CustomCode
: un objeto CustomCode.Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una recopilación de DynamicFrames.
-
SparkSQL
: un objeto SparkSQL.Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único
DynamicFrame
. -
DirectKinesisSource
: un objeto DirectKinesisSource.Especifica un origen de datos directo de Amazon Kinesis.
-
DirectKafkaSource
: un objeto DirectKafkaSource.Especifica un almacén de datos de Apache Kafka.
-
CatalogKinesisSource
: un objeto CatalogKinesisSource.Especifica un origen de datos de Kinesis en AWS Glue Data Catalog.
-
CatalogKafkaSource
: un objeto CatalogKafkaSource.Especifica un almacén de datos de Apache Kafka en Data Catalog.
-
DropNullFields
: un objeto DropNullFields.Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas que son “nulas”, los enteros -1 u otros marcadores de posición, como los ceros, no se reconocen de manera automática como nulos.
-
Merge
: un objeto Merge.Especifica una transformación que fusiona un
DynamicFrame
con una instancia provisional deDynamicFrame
en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan. -
Union
: un objeto Unión.Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.
-
PIIDetection
: un objeto PIIDetection.Especifica una transformación que identifica, elimina o enmascara datos PII.
-
Aggregate
: un objeto Agregado.Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.
-
DropDuplicates
: un objeto DropDuplicates.Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.
-
GovernedCatalogTarget
: un objeto GovernedCatalogTarget.Especifica un destino de datos que escribe en un catálogo gobernado.
-
GovernedCatalogSource
: un objeto GovernedCatalogSource.Especifica un origen de datos en un Data Catalog gobernado.
-
MicrosoftSQLServerCatalogSource
: un objeto MicrosoftSQLServerCatalogSource.Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.
-
MySQLCatalogSource
: un objeto MySQLCatalogSource.Especifica un origen de datos de MySQL en AWS Glue Data Catalog.
-
OracleSQLCatalogSource
: un objeto OracleSQLCatalogSource.Especifica un origen de datos de Oracle en AWS Glue Data Catalog.
-
PostgreSQLCatalogSource
: un objeto PostgreSQLCatalogSource.Especifica un origen de datos de PostgreSQL en AWS Glue Data Catalog.
-
MicrosoftSQLServerCatalogTarget
: un objeto MicrosoftSQLServerCatalogTarget.Especifica un destino que utiliza Microsoft SQL.
-
MySQLCatalogTarget
: un objeto MySQLCatalogTarget.Especifica un destino que utiliza MySQL.
-
OracleSQLCatalogTarget
: un objeto OracleSQLCatalogTarget.Especifica un destino que utiliza Oracle SQL.
-
PostgreSQLCatalogTarget
: un objeto PostgreSQLCatalogTarget.Especifica un destino que utiliza PostgreSQL.
-
DynamicTransform
: un objeto DynamicTransform.Especifica una transformación visual personalizada que haya creado un usuario.
-
EvaluateDataQuality
: un objeto EvaluateDataQuality.Especifica los criterios de evaluación de la calidad de los datos.
-
S3CatalogHudiSource
: un objeto S3CatalogHudiSource.Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue. El origen de datos debe almacenarse en Amazon S3.
-
CatalogHudiSource
: un objeto CatalogHudiSource.Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue.
-
S3HudiSource
: un objeto S3HudiSource.Especifica un origen de datos de Hudi almacenado en Amazon S3.
-
S3HudiCatalogTarget
: un objeto S3HudiCatalogTarget.Especifica un destino que escribe en un origen de datos de Hudi en el Catálogo de datos de AWS Glue.
-
S3HudiDirectTarget
: un objeto S3HudiDirectTarget.Especifica un destino que escribe en un origen de datos de Hudi en Amazon S3.
-
S3CatalogDeltaSource
: un objeto S3CatalogDeltaSource.Especifica un origen de datos de Delta Lake que está registrado en el Catálogo de datos de AWS Glue. El origen de datos debe almacenarse en Amazon S3.
-
CatalogDeltaSource
: un objeto CatalogDeltaSource.Especifica un origen de datos de Delta Lake que está registrado en el Catálogo de datos de AWS Glue.
-
S3DeltaSource
: un objeto S3DeltaSource.Especifica un origen de datos de Delta Lake almacenado en Amazon S3.
-
S3DeltaCatalogTarget
: un objeto S3DeltaCatalogTarget.Especifica un destino que escribe en un origen de datos de Delta Lake en el Catálogo de datos de AWS Glue.
-
S3DeltaDirectTarget
: un objeto S3DeltaDirectTarget.Especifica un destino que escribe en un origen de datos de Delta Lake en el Amazon S3.
-
AmazonRedshiftSource
: un objeto AmazonRedshiftSource.Especifica un destino que escribe en un origen de datos en Amazon Redshift.
-
AmazonRedshiftTarget
: un objeto AmazonRedshiftTarget.Especifica un destino que escribe en un destino de datos en Amazon Redshift.
-
EvaluateDataQualityMultiFrame
: un objeto EvaluateDataQualityMultiFrame.Especifica los criterios de evaluación de la calidad de los datos. Permite múltiples datos de entrada y devuelve una colección de marcos dinámicos.
-
Recipe
: un objeto Receta.Especifica un nodo de receta de AWS Glue DataBrew.
-
SnowflakeSource
: un objeto SnowflakeSource.Especifica un origen de datos de Snowflake.
-
SnowflakeTarget
: un objeto SnowflakeTarget.Especifica un destino que escribe en un origen de datos de Snowflake.
-
ConnectorDataSource
: un objeto ConnectorDataSource.Especifica una fuente generada con opciones de conexión estándar.
-
ConnectorDataTarget
: un objeto ConnectorDataTarget.Especifica un destino generado con opciones de conexión estándar.
Estructura JDBCConnectorOptions
Opciones de conexión adicionales para el conector.
Campos
-
FilterPredicate
: cadena UTF-8 que coincide con el Custom string pattern #59.Cláusula de condición adicional para filtrar datos desde el origen. Por ejemplo:
BillingCity='Mountain View'
Cuando se utiliza una consulta en lugar de una tabla, se debe validar que la consulta funciona con el
filterPredicate
especificado. -
PartitionColumn
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de una columna entera que se utiliza para particionar. Esta opción solo funciona cuando está incluida con
lowerBound
,upperBound
ynumPartitions
. Esta opción funciona de la misma manera que en el lector JDBC de Spark SQL. -
LowerBound
: número (largo), cero como máximo.El valor mínimo de
partitionColumn
que se utiliza para decidir el intervalo de partición. -
UpperBound
: número (largo), cero como máximo.El valor máximo de
partitionColumn
que se utiliza para decidir el intervalo de partición. -
NumPartitions
: número (largo), cero como máximo.El número de particiones. Este valor, junto con
lowerBound
(inclusive) yupperBound
(exclusivo), forma intervalos de partición para expresiones de la cláusulaWHERE
generadas, que se utilizan para dividir lapartitionColumn
. -
JobBookmarkKeys
: matriz de cadenas UTF-8.El nombre de las claves favoritas de trabajo en las que se ordenará.
-
JobBookmarkKeysSortOrder
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el orden de clasificación ascendente o descendente.
-
DataTypeMapping
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 (valores válidos:
ARRAY
|BIGINT
|BINARY
|BIT
|BLOB
|BOOLEAN
|CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
|NULL
|NUMERIC
|NVARCHAR
|OTHER
|REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
|SQLXML
|STRUCT
|TIME
|TIME_WITH_TIMEZONE
|TIMESTAMP
|TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
).Cada valor es una cadena UTF-8 (valores válidos:
DATE
|STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
|BYTE
|SHORT
|DOUBLE
).Asignación de tipos de datos personalizada, que crea una asignación a partir de un tipo de datos JDBC a un tipo de datos de AWS Glue. Por ejemplo, la opción
"dataTypeMapping":{"FLOAT":"STRING"}
asigna campos de datos de tipo JDBCFLOAT
al tipo JavaString
al invocar el métodoResultSet.getString()
del controlador y lo utiliza para crear registros de AWS Glue. Cada controlador implementa el objetoResultSet
, por lo que el comportamiento es específico del controlador que se utiliza. Consulte la documentación del controlador JDBC para comprender cómo el controlador realiza las conversiones.
Estructura StreamingDataPreviewOptions
Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
Campos
-
PollingTime
: número (largo), como mínimo 10.El tiempo de sondeo en milisegundos.
-
RecordPollingLimit
: número (largo), como mínimo 1.El límite del número de registros sondeados.
Estructura AthenaConnectorSource
Especifica un conector a un origen de datos de Amazon Athena.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de conexión, como marketplace.athena o custom.athena, que designa una conexión a un almacén de datos de Amazon Athena.
-
ConnectionTable
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en el origen de datos.
-
SchemaName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre del grupo de registro de CloudWatch de lectura. Por ejemplo,
/aws-glue/jobs/output
. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de Athena personalizado.
Estructura JDBCConnectorSource
Especifica un conector a un origen de datos JDBC.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un almacén de datos JDBC.
-
AdditionalOptions
: un objeto JDBCConnectorOptions.Opciones de conexión adicionales para el conector.
-
ConnectionTable
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en el origen de datos.
-
Query
: cadena UTF-8 que coincide con el Custom string pattern #60.La tabla o consulta SQL de la que se obtienen los datos. Puede especificar
ConnectionTable
oquery
, pero no ambos. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de JDBC personalizado.
Estructura SparkConnectorSource
Especifica un conector a un origen de datos de Apache Spark.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión asociada al conector.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de un conector que ayuda a acceder al almacén de datos en AWS Glue Studio.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de spark personalizado.
Estructura CatalogSource
Especifica un almacén de datos en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura MySQLCatalogSource
Especifica un origen de datos de MySQL en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura PostgreSQLCatalogSource
Especifica un origen de datos de PostgreSQL en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura OracleSQLCatalogSource
Especifica un origen de datos de Oracle en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura MicrosoftSQLServerCatalog
Especifica un origen de datos de Microsoft SQL server en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura CatalogKinesisSource
Especifica un origen de datos de Kinesis en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
DetectSchema
: booleano.Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
StreamingOptions
: un objeto KinesisStreamingSourceOptions.Opciones adicionales para el origen de datos de streaming de Kinesis.
-
DataPreviewOptions
: un objeto StreamingDataPreviewOptions.Opciones adicionales para la versión preliminar de datos.
Estructura DirectKinesisSource
Especifica un origen de datos directo de Amazon Kinesis.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
DetectSchema
: booleano.Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
StreamingOptions
: un objeto KinesisStreamingSourceOptions.Opciones adicionales para el origen de datos de streaming de Kinesis.
-
DataPreviewOptions
: un objeto StreamingDataPreviewOptions.Opciones adicionales para la versión preliminar de datos.
Estructura KinesisStreamingSourceOptions
Opciones adicionales para el origen de datos de streaming de Amazon Kinesis.
Campos
-
EndpointUrl
: cadena UTF-8 que coincide con el Custom string pattern #59.La URL del punto de conexión de Kinesis.
-
StreamName
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre del flujo de datos de Kinesis.
-
Classification
: cadena UTF-8 que coincide con el Custom string pattern #59.Una clasificación opcional.
-
Delimiter
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el carácter delimitador.
-
StartingPosition
: cadena UTF-8 (valores válidos:latest="LATEST"
|trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
|timestamp="TIMESTAMP"
).La posición inicial en el flujo de datos de Kinesis para leer los datos. Los valores posibles son
"latest"
,"trim_horizon"
,"earliest"
o una cadena de marca de tiempo en formato UTC en el patrónyyyy-mm-ddTHH:MM:SSZ
(dondeZ
representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “04-04-2023 T 08:00:00-04:00”). El valor predeterminado es"latest"
.Nota: El uso de un valor que sea una cadena de marca de tiempo en formato UTC para “startingPosition” solo se admite en la versión 4.0 de AWS Glue o posterior.
-
MaxFetchTimeInMs
: número (largo), cero como máximo.El tiempo máximo que le tomó al ejecutor del trabajo leer los registros del lote actual en el flujo de datos de Kinesis, especificado en milisegundos (ms). Pueden realizarse varias llamadas a la API de
GetRecords
durante este tiempo. El valor predeterminado es1000
. -
MaxFetchRecordsPerShard
: número (largo), cero como máximo.El número máximo de registros que se recuperará por partición en el flujo de datos de Kinesis por microlote. Nota: El cliente puede exceder este límite si el trabajo de streaming ya leyó registros adicionales de Kinesis (en la misma llamada de obtención de registros). Si
MaxFetchRecordsPerShard
tiene que ser preciso, entonces tiene que ser un múltiplo deMaxRecordPerRead
. El valor predeterminado es100000
. -
MaxRecordPerRead
: número (largo), cero como máximo.El número máximo de registros que se recuperará del flujo de datos de Kinesis en cada operación getRecords. El valor predeterminado es
10000
. -
AddIdleTimeBetweenReads
: booleano.Agrega un retardo de tiempo entre dos operaciones getRecords consecutivas. El valor predeterminado es
"False"
. Esta opción sólo se puede configurar para Glue versión 2.0 y superior. -
IdleTimeBetweenReadsInMs
: número (largo), cero como máximo.El retardo de tiempo mínimo entre dos operaciones getRecords consecutivas, especificado en ms. El valor predeterminado es
1000
. Esta opción sólo se puede configurar para Glue versión 2.0 y superior. -
DescribeShardInterval
: número (largo), cero como máximo.El intervalo mínimo de tiempo entre dos llamadas a la API ListShards para que su script considere cambios en las particiones. El valor predeterminado es
1s
. -
NumRetries
: número (entero), cero como máximo.El número máximo de reintentos para las solicitudes de la API de Kinesis Data Streams. El valor predeterminado es
3
. -
RetryIntervalMs
: número (largo), cero como máximo.El periodo de enfriamiento (especificado en ms) antes de volver a intentar la llamada a la API de Kinesis Data Streams. El valor predeterminado es
1000
. -
MaxRetryIntervalMs
: número (largo), cero como máximo.El periodo de enfriamiento máximo (especificado en ms) entre dos intentos de llamada a la API de Kinesis Data Streams. El valor predeterminado es
10000
. -
AvoidEmptyBatches
: booleano.Evita crear un trabajo de microlotes vacío al comprobar si hay datos no leídos en el flujo de datos de Kinesis antes de que se inicie el lote. El valor predeterminado es
"False"
. -
StreamArn
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de recurso de Amazon (ARN) del flujo de datos de Kinesis.
-
RoleArn
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de recurso de Amazon (ARN) del rol que se va a asumir mediante AWS Security Token Service (AWS STS). Este rol debe tener permisos para describir o leer operaciones de registros del flujo de datos de Kinesis. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con
"awsSTSSessionName"
. -
RoleSessionName
: cadena UTF-8 que coincide con el Custom string pattern #59.Un identificador para la sesión que asume el rol mediante AWS STS. Debe utilizar este parámetro para acceder a un flujo de datos de otra cuenta. Se utiliza junto con
"awsSTSRoleARN"
. -
AddRecordTimestamp
: cadena UTF-8 que coincide con el Custom string pattern #59.Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el flujo recibió el registro correspondiente. El valor predeterminado es “false”. Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
EmitConsumerLagMetrics
: cadena UTF-8 que coincide con el Custom string pattern #59.Cuando esta opción se establece en “verdadera”, para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el flujo y el momento en que llegue a AWS Glue en CloudWatch. El nombre de la métrica es “glue.driver.streaming.maxConsumerLagInMs”. El valor predeterminado es “false”. Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
StartingTimestamp
: cadena UTF-8.La marca de tiempo del registro del flujo de datos de Kinesis desde la que empezar a leer los datos. Los valores posibles son una cadena de marca de tiempo en formato UTC en el patrón
yyyy-mm-ddTHH:MM:SSZ
(donde Z representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “2023-04-04T08:00:00+08:00”).
Estructura CatalogKafkaSource
Especifica un almacén de datos de Apache Kafka en Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
DetectSchema
: booleano.Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
StreamingOptions
: un objeto KafkaStreamingSourceOptions.Especifica las opciones de streaming.
-
DataPreviewOptions
: un objeto StreamingDataPreviewOptions.Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
Estructura DirectKafkaSource
Especifica un almacén de datos de Apache Kafka.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
StreamingOptions
: un objeto KafkaStreamingSourceOptions.Especifica las opciones de streaming.
-
WindowSize
: número (entero), cero como máximo.La cantidad de tiempo que se debe dedicar al procesamiento de cada microlote.
-
DetectSchema
: booleano.Si se debe determinar automáticamente el esquema a partir de los datos entrantes.
-
DataPreviewOptions
: un objeto StreamingDataPreviewOptions.Especifica las opciones relacionadas con la versión preliminar de datos para ver una muestra de los datos.
Estructura KafkaStreamingSourceOptions
Opciones adicionales para streaming.
Campos
-
BootstrapServers
: cadena UTF-8 que coincide con el Custom string pattern #59.Una lista de direcciones URL de servidor Bootstrap, por ejemplo, como
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
. Esta opción debe especificarse en la llamada a la API o definirse en los metadatos de la tabla en el Data Catalog. -
SecurityProtocol
: cadena UTF-8 que coincide con el Custom string pattern #59.El protocolo utilizado para la comunicación con los agentes. Los valores posibles son
"SSL"
o."PLAINTEXT"
-
ConnectionName
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión.
-
TopicName
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre del tema como se especifica en Apache Kafka. Debe especificar al menos una opción entre
"topicName"
,"assign"
o"subscribePattern"
. -
Assign
: cadena UTF-8 que coincide con el Custom string pattern #59.Las
TopicPartitions
específicas que se utilizarán. Debe especificar al menos una opción entre"topicName"
,"assign"
o"subscribePattern"
. -
SubscribePattern
: cadena UTF-8 que coincide con el Custom string pattern #59.Una cadena de expresiones regulares de Java que identifica la lista de temas a la que desea suscribirse. Debe especificar al menos una opción entre
"topicName"
,"assign"
o"subscribePattern"
. -
Classification
: cadena UTF-8 que coincide con el Custom string pattern #59.Una clasificación opcional.
-
Delimiter
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el carácter delimitador.
-
StartingOffsets
: cadena UTF-8 que coincide con el Custom string pattern #59.La posición inicial en el tema de Kafka para leer los datos. Los valores posibles son
"earliest"
o."latest"
El valor predeterminado es"latest"
. -
EndingOffsets
: cadena UTF-8 que coincide con el Custom string pattern #59.El punto de conexión cuando finaliza una consulta por lotes. Los valores posibles son
"latest"
o una cadena JSON que especifica una compensación final para cadaTopicPartition
. -
PollTimeoutMs
: número (largo), cero como máximo.El tiempo de espera en milisegundos para sondear datos de Kafka en ejecutores de trabajos de Spark. El valor predeterminado es
512
. -
NumRetries
: número (entero), cero como máximo.El número de veces que se reintenta antes de no obtener las compensaciones de Kafka. El valor predeterminado es
3
. -
RetryIntervalMs
: número (largo), cero como máximo.El tiempo en milisegundos para esperar antes de volver a intentar obtener compensaciones Kafka. El valor predeterminado es
10
. -
MaxOffsetsPerTrigger
: número (largo), cero como máximo.El límite de velocidad en el número máximo de compensaciones que se procesan por intervalo de desencadenador. El número total de compensaciones especificado se divide de forma proporcional entre
topicPartitions
de diferentes volúmenes. El valor predeterminado es nulo, lo que significa que el consumidor lee todos las compensaciones hasta la última compensación conocida. -
MinPartitions
: número (entero), cero como máximo.El número mínimo deseado de particiones para leer desde Kafka. El valor predeterminado es nulo, lo que significa que el número de particiones de Spark es igual al número de particiones de Kafka.
-
IncludeHeaders
: booleano.Si se incluyen los encabezados de Kafka. Cuando la opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “glue_streaming_kafka_headers” con el tipo
Array[Struct(key: String, value: String)]
. El valor predeterminado es “false”. Esta opción solo se encuentra disponible en la versión 3.0 o posterior de AWS Glue. -
AddRecordTimestamp
: cadena UTF-8 que coincide con el Custom string pattern #59.Cuando esta opción se establece en “true”, la salida de datos contendrá una columna adicional denominada “__src_timestamp” que indica la hora en la que el tema recibió el registro correspondiente. El valor predeterminado es “false”. Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
EmitConsumerLagMetrics
: cadena UTF-8 que coincide con el Custom string pattern #59.Cuando esta opción se establece en “verdadera”, para cada lote, emitirá las métricas correspondientes al período comprendido entre el registro más antiguo recibido por el tema y el momento en que llegue a AWS Glue en CloudWatch. El nombre de la métrica es “glue.driver.streaming.maxConsumerLagInMs”. El valor predeterminado es “false”. Esta opción es compatible con la versión 4.0 o posterior de AWS Glue.
-
StartingTimestamp
: cadena UTF-8.La marca de tiempo del registro en el tema de Kafka desde el que empezar a leer los datos. Los valores posibles son una cadena de marca de tiempo en formato UTC en el patrón
yyyy-mm-ddTHH:MM:SSZ
(donde Z representa un desplazamiento de zona horaria UTC con un +/-. Por ejemplo, “2023-04-04T08:00:00+08:00”).Solo se debe configurar una de
StartingTimestamp
oStartingOffsets
.
Estructura RedshiftSource
Especifica un almacén de datos de Amazon Redshift.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos de Amazon Redshift.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La tabla de base de datos de lectura.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #59.La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.
-
TmpDirIAMRole
: cadena UTF-8 que coincide con el Custom string pattern #59.El rol de IAM con permisos.
Estructura de AmazonRedshiftSource
Especifica el origen de Amazon Redshift.
Campos
-
Name
: cadena UTF-8 que coincide con el Custom string pattern #61.Nombre del origen de Amazon Redshift.
-
Data
: un objeto AmazonRedshiftNodeData.Especifica los datos del nodo de origen de Amazon Redshift.
Estructura de AmazonRedshiftNodeData
Especifica un nodo de Amazon Redshift.
Campos
-
AccessType
: cadena UTF-8 que coincide con el Custom string pattern #58.El tipo de acceso para la conexión de Redshift. Puede ser una conexión directa o una conexión de catálogo.
-
SourceType
: cadena UTF-8 que coincide con el Custom string pattern #58.El tipo de origen para especificar si una tabla específica es el origen o una consulta personalizada.
-
Connection
: un objeto Opción.La conexión de AWS Glue al clúster de Redshift.
-
Schema
: un objeto Opción.El nombre del esquema de Redshift cuando se trabaja con una conexión directa.
-
Table
: un objeto Opción.El nombre de la tabla de Redshift cuando se trabaja con una conexión directa.
-
CatalogDatabase
: un objeto Opción.El nombre de la base de datos del Catálogo de datos de AWS Glue cuando se trabaja con un catálogo de datos.
-
CatalogTable
: un objeto Opción.El nombre de la tabla del Catálogo de datos de AWS Glue cuando se trabaja con un catálogo de datos.
-
CatalogRedshiftSchema
: cadena UTF-8.El nombre del esquema de Redshift cuando se trabaja con un catálogo de datos.
-
CatalogRedshiftTable
: cadena UTF-8.La tabla de base de datos de lectura.
-
TempDir
: cadena UTF-8 que coincide con el Custom string pattern #59.La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.
-
IamRole
: un objeto Opción.Opcional. El nombre del rol que se utiliza al conectarse a S3. El rol de IAM será la función del trabajo de forma predeterminada si se deja en blanco.
-
AdvancedOptions
: matriz de objetos AmazonRedshiftAdvancedOption.Valores opcionales al conectarse al clúster de Redshift.
-
SampleQuery
: cadena UTF-8.El SQL que se utiliza para obtener los datos de un origen de Redshift cuando SourceType es “consulta”.
-
PreAction
: cadena UTF-8.El SQL utilizado antes de ejecutar un comando MERGE o APPEND con upsert.
-
PostAction
: cadena UTF-8.El SQL utilizado antes de ejecutar un comando MERGE o APPEND con upsert.
-
Action
: cadena UTF-8.Especifica cómo se escribirá en un clúster de Redshift.
-
TablePrefix
: cadena UTF-8 que coincide con el Custom string pattern #58.Especifica el prefijo a una tabla.
-
Upsert
: booleano.La acción utilizada en Redshift se hunde al realizar un APPEND.
-
MergeAction
: cadena UTF-8 que coincide con el Custom string pattern #58.La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift.
-
MergeWhenMatched
: cadena UTF-8 que coincide con el Custom string pattern #58.La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift cuando un registro existente coincida con un registro nuevo.
-
MergeWhenNotMatched
: cadena UTF-8 que coincide con el Custom string pattern #58.La acción que se utiliza para determinar cómo se gestionará un MERGE en un receptor de Redshift cuando un registro existente no coincida con un registro nuevo.
-
MergeClause
: cadena UTF-8.El SQL utilizado en una combinación personalizada para tratar los registros coincidentes.
-
CrawlerConnection
: cadena UTF-8.Especifica el nombre de la conexión asociada con la tabla de catálogo utilizada.
-
TableSchema
: matriz de objetos Opción.La matriz de salida del esquema para un nodo determinado.
-
StagingTable
: cadena UTF-8.El nombre de la tabla provisional temporal que se utiliza al realizar MERGE o APPEND con upsert.
-
SelectedColumns
: matriz de objetos Opción.La lista de nombres de columnas que se utiliza para determinar un registro coincidente al realizar un MERGE o APPEND con upsert.
Estructura de AmazonRedshiftAdvancedOption
Especifica un valor opcional al conectarse al clúster de Redshift.
Campos
-
Key
: cadena UTF-8.La clave de la opción de conexión adicional.
-
Value
: cadena UTF-8.El valor de la opción de conexión adicional.
Estructura de opción
Especifica un valor de opción.
Campos
-
Value
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el valor de la opción.
-
Label
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la etiqueta de la opción.
-
Description
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la descripción de la opción.
Estructura S3CatalogSource
Especifica un almacén de datos de Amazon S3 en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La tabla de base de datos de lectura.
-
PartitionPredicate
: cadena UTF-8 que coincide con el Custom string pattern #59.Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en
""
, valor vacío de forma predeterminada. -
AdditionalOptions
: un objeto S3SourceAdditionalOptions.Especifica opciones de conexión adicionales.
Estructura S3SourceAdditionalOptions
Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.
Campos
-
BoundedSize
: número (largo).Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.
-
BoundedFiles
: número (largo).Establece el límite superior del número objetivo de archivos que se procesarán.
Estructura S3CsvSource
Especifica un almacén de datos de valores separados por comas (CSV) almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, “[\“**.pdf \”]” excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #59.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #59.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Recurse
: booleano.Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: un objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
Separator
: obligatorio: cadena de UTF-8 (valores válidos:comma="COMMA"
|ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
).Especifica el carácter delimitador. El valor predeterminado es una coma: “,”; pero puede especificarse cualquier otro carácter.
-
Escaper
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica un carácter que se usar para aplicar escape. Esta opción solo se usa cuando se leen archivos CSV. El valor predeterminado es
none
. Si se habilita, el carácter que va inmediatamente después se usa tal cual, excepto un pequeño conjunto de escapes conocidos (\n
,\r
,\t
y\0
). -
QuoteChar
: obligatorio: cadena UTF-8 (valores válidos:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
).Especifica el carácter que se usar para aplicar comillas. El carácter predeterminado es una comilla doble:
'"'
. Establezca esta opción en-1
para desactivar las comillas por completo. -
Multiline
: booleano.Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es
False
, que permite una división de archivo más dinámica durante el análisis. -
WithHeader
: booleano.Un valor booleano que especifica si la primera línea se debe tratar como un encabezado. El valor predeterminado es
False
. -
WriteHeader
: booleano.Un valor booleano que especifica si se debe escribir el encabezado en la salida. El valor predeterminado es
True
. -
SkipFirst
: booleano.Un valor booleano que especifica si se debe omitir la primera línea de datos. El valor predeterminado es
False
. -
OptimizePerformance
: booleano.Un valor booleano que especifica si se debe utilizar el lector CSV SIMD avanzado junto con los formatos de memoria columnar con base en Apache Arrow. Disponible únicamente en la versión 3.0 de AWS Glue.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato CSV.
Estructura DirectJDBCSource
Especifica la conexión de origen JDBC directa.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre de la conexión de origen de JDBC.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La base de datos de la conexión de origen de JDBC.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La tabla de la conexión de origen de JDBC.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión del origen de JDBC.
-
ConnectionType
: obligatorio: cadena de UTF-8 (valores válidos:sqlserver
|mysql
|oracle
|postgresql
|redshift
).El tipo de conexión del origen de JDBC.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #59.El directorio temporal del origen de JDBC Redshift.
Estructura S3DirectSourceAdditionalOptions
Especifica opciones de conexión adicionales para el almacén de datos de Amazon S3.
Campos
-
BoundedSize
: número (largo).Establece el límite superior del tamaño objetivo del conjunto de datos en bytes que se procesará.
-
BoundedFiles
: número (largo).Establece el límite superior del número objetivo de archivos que se procesarán.
-
EnableSamplePath
: booleano.Establece la opción para habilitar una ruta de ejemplo.
-
SamplePath
: cadena UTF-8 que coincide con el Custom string pattern #59.Si está habilitado, especifica la ruta de ejemplo.
Estructura S3JsonSource
Especifica un almacén de datos JSON almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, “[\“**.pdf \”]” excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #59.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #59.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Recurse
: booleano.Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: un objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
JsonPath
: cadena UTF-8 que coincide con el Custom string pattern #59.Una cadena JsonPath que define los datos JSON.
-
Multiline
: booleano.Un valor booleano que especifica si un solo registro puede abarcar varias líneas. Esto puede suceder cuando un campo contiene un carácter de nueva línea entre comillas. Debe configurar esta opción en verdadero si un registro abarca varias líneas. El valor predeterminado es
False
, que permite una división de archivo más dinámica durante el análisis. -
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato JSON.
Estructura S3ParquetSource
Especifica un almacén de datos de Apache Parquet almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
CompressionType
: cadena UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Exclusions
: matriz de cadenas UTF-8.Una cadena que contiene una lista JSON de patrones glob de estilo Unix para excluir. Por ejemplo, “[\“**.pdf \”]” excluye todos los archivos PDF.
-
GroupSize
: cadena UTF-8 que coincide con el Custom string pattern #59.El tamaño del grupo de destino en bytes. El valor predeterminado se calcula en función del tamaño de los datos de entrada y el tamaño de su clúster. Cuando hay menos de 50 000 archivos de entrada,
"groupFiles"
debe establecerse en"inPartition"
para que este valor surta efecto. -
GroupFiles
: cadena UTF-8 que coincide con el Custom string pattern #59.La agrupación de archivos se habilita de forma predeterminada cuando la entrada contiene más de 50 000 archivos. Para habilitar las agrupaciones con menos de 50 000 archivos, establezca este parámetro en “inPartition”. Para deshabilitar las agrupaciones con más de 50 000 archivos, establezca este parámetro en
"none"
. -
Recurse
: booleano.Si se establece en verdadero, lee recursivamente archivos en todos los subdirectorios de las rutas especificadas.
-
MaxBand
: número (entero), cero como máximo.Esta opción controla la duración en milisegundos después de la que es probable que el listado de s3 sea coherente. Se realiza un seguimiento de los archivos cuyas marcas de tiempo de modificación estén comprendidas en los últimos milisegundos de maxBand, en especial cuando se utilizan JobBookmarks para obtener coherencia final de Amazon S3. La mayoría de los usuarios no tienen que establecer esta opción. El valor predeterminado es 900 000 milisegundos, o 15 minutos.
-
MaxFilesInBand
: número (entero), cero como máximo.Esta opción especifica el número máximo de archivos que deben guardarse desde los últimos segundos de maxBand. Si se supera este número, los archivos adicionales se omiten y solo se procesarán en la siguiente ejecución del flujo de trabajo.
-
AdditionalOptions
: un objeto S3DirectSourceAdditionalOptions.Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del origen de S3 con formato Parquet.
Estructura de S3DeltaSource
Especifica un origen de datos de Delta Lake almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen del Delta Lake.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
AdditionalOptions
: un objeto S3DirectSourceAdditionalOptions.Especifica las opciones adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Delta Lake.
Estructura de S3CatalogDeltaSource
Especifica un origen de datos de Delta Lake que está registrado en el Catálogo de datos de AWS Glue. El origen de datos debe almacenarse en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos de Delta Lake.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Delta Lake.
Estructura de CatalogDeltaSource
Especifica un origen de datos de Delta Lake que está registrado en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos de Delta Lake.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
AdditionalDeltaOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Delta Lake.
Estructura S3HudiSource
Especifica un origen de datos de Hudi almacenado en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de Hudi.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una lista de las rutas de Amazon S3 desde las que se leerá.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
AdditionalOptions
: un objeto S3DirectSourceAdditionalOptions.Especifica las opciones adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
Estructura S3CatalogHudiSource
Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue. El origen de datos de Hudi debe almacenarse en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos de Hudi.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
Estructura CatalogHudiSource
Especifica un origen de datos de Hudi que está registrado en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos de Hudi.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
-
AdditionalHudiOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para el origen de Hudi.
Estructura DynamoDBCatalogSource
Especifica un origen de datos de DynamoDB en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura RelationalCatalogSource
Especifica un origen de datos de base de datos relacional en AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en la base de datos de lectura.
Estructura JDBCConnectorTarget
Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión asociada al conector.
-
ConnectionTable
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla en el destino de datos.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de un conector que se utilizará.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de conexión, como marketplace.jdbc o custom.jdbc, que designa una conexión a un destino de datos JDBC.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del destino de JDBC.
Estructura SparkConnectorTarget
Especifica un destino que utiliza un conector de Apache Spark.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
ConnectionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de una conexión de un conector de Apache Spark.
-
ConnectorName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de un conector de Apache Spark.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de conexión, como marketplace.spark o custom.spark, que designa una conexión a un almacén de datos de Apache Spark.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Opciones de conexión adicionales para el conector.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos del destino de spark personalizado.
Estructura BasicCatalogTarget
Especifica un destino que utiliza una tabla de AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Las claves de partición que se utilizan para distribuir los datos entre varias particiones o fragmentos en función de una clave o conjunto de claves específicos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La base de datos que contiene la tabla que desea utilizar como destino. Esta base de datos ya debe existir en el Catálogo de datos.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La tabla que define el esquema de los datos de salida. Esta tabla ya debe existir en el Catálogo de datos.
Estructura MySQLCatalogTarget
Especifica un destino que utiliza MySQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
Estructura PostgreSQLCatalogSourceTarget
Especifica un destino que utiliza PostgreSQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
Estructura OracleSQLCatalogTarget
Especifica un destino que utiliza Oracle SQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
Estructura MicrosoftSQLServerCatalogTarget
Especifica un destino que utiliza Microsoft SQL.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
Estructura RedshiftTarget
Especifica un destino que utiliza Amazon Redshift.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
-
RedshiftTmpDir
: cadena UTF-8 que coincide con el Custom string pattern #59.La ruta de Amazon S3 donde se pueden almacenar datos temporales al copiar desde la base de datos.
-
TmpDirIAMRole
: cadena UTF-8 que coincide con el Custom string pattern #59.El rol de IAM con permisos.
-
UpsertRedshiftOptions
: un objeto UpsertRedshiftTargetOptions.Conjunto de opciones para configurar una operación upsert al escribir en un destino de Redshift.
Estructura de AmazonRedshiftTarget
Especifica un destino de Amazon Redshift.
Campos
-
Name
: cadena UTF-8 que coincide con el Custom string pattern #61.Nombre del destino de Amazon Redshift.
-
Data
: un objeto AmazonRedshiftNodeData.Especifica los datos del nodo de destino de Amazon Redshift.
-
Inputs
: matriz de cadenas UTF-8, no menos de una cadena o más de una.Los nodos que son entradas para el destino de datos.
Estructura UpsertRedShiftTargetOptions
Opciones para configurar una operación upsert al escribir en un destino de Redshift.
Campos
-
TableLocation
: cadena UTF-8 que coincide con el Custom string pattern #59.Ubicación física de la tabla de Redshift.
-
ConnectionName
: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la conexión que se utilizará para escribir en Redshift.
-
UpsertKeys
: matriz de cadenas UTF-8.Claves utilizadas para determinar si se debe realizar una actualización o una inserción.
Estructura S3CatalogTarget
Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
SchemaChangePolicy
: un objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura S3GlueParquetTarget
Especifica un destino de datos que escribe en Amazon S3 en el almacenamiento en columnas de Apache Parquet.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Una única ruta de Amazon S3 de escritura.
-
Compression
: cadena UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
SchemaChangePolicy
: un objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura CatalogSchemaChangePolicy
Una política que especifica los comportamientos de actualización del rastreador.
Campos
-
EnableUpdateCatalog
: booleano.Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.
-
UpdateBehavior
: cadena UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.
Estructura S3DirectTarget
Especifica un destino de datos que escribe en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Una única ruta de Amazon S3 de escritura.
-
Compression
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Format
– Obligatorio: cadena UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica el formato de salida de datos para el destino.
-
SchemaChangePolicy
: un objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura S3HudiCatalogTarget
Especifica un destino que escribe en un origen de datos de Hudi en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
AdditionalOptions
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: un objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura S3HudiDirectTarget
Especifica un destino que escribe en un origen de datos de Hudi en Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La ruta de Amazon S3 del origen de datos de Hudi en la que desea escribir.
-
Compression
: obligatorio: cadena UTF-8 (valores válidos:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Format
– Obligatorio: cadena UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica el formato de salida de datos para el destino.
-
AdditionalOptions
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: un objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura de S3DeltaCatalogTarget
Especifica un destino que escribe en un origen de datos de Delta Lake en el Catálogo de datos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: un objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura de S3DeltaDirectTarget
Especifica un destino que escribe en un origen de datos de Delta Lake en el Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La ruta de Amazon S3 del origen de datos de Delta Lake en la que desea escribir.
-
Compression
: obligatorio: cadena UTF-8 (valores válidos:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son
"gzip"
y"bzip"
). -
Format
– Obligatorio: cadena UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica el formato de salida de datos para el destino.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones de conexión adicionales para el conector.
-
SchemaChangePolicy
: un objeto DirectSchemaChangePolicy.Una política que especifica los comportamientos de actualización del rastreador.
Estructura DirectSchemaChangePolicy
Una política que especifica los comportamientos de actualización del rastreador.
Campos
-
EnableUpdateCatalog
: booleano.Si utilizar o no el comportamiento de actualización especificado cuando el rastreador encuentra un esquema cambiado.
-
UpdateBehavior
: cadena UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.
-
Table
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la tabla de la base de datos a la que se aplica la política de cambio de esquema.
-
Database
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la base de datos a la que se aplica la política de cambio de esquema.
Estructura ApplyMapping
Especifica una transformación que asigna claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos. Puede cambiar el nombre de las claves, modificar los tipos de datos de las claves y elegir las claves que desea descartar del conjunto de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Mapping
(obligatorio): una matriz de objetos Correspondencia.Especifica la asignación de claves de propiedad de datos en el origen de datos a claves de propiedad de datos en el destino de datos.
Estructura de asignación
Especifica la asignación de claves de propiedad de datos.
Campos
-
ToKey
: cadena UTF-8 que coincide con el Custom string pattern #59.Después de aplicar la asignación, cuál debe ser el nombre de la columna. Puede ser igual que
FromPath
. -
FromPath
: matriz de cadenas UTF-8.La tabla o columna que se va a modificar.
-
FromType
: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de datos que se van a modificar.
-
ToType
: cadena UTF-8 que coincide con el Custom string pattern #59.El tipo de datos al que se van a modificar los datos.
-
Dropped
: booleano.Si se establece en verdadero, se quita la columna.
-
Children
: matriz de objetos Correspondencia.Solo aplicable a estructuras de datos anidadas. Si desea cambiar la estructura principal, pero también una de las secundarias, puede rellenar esta estructura de datos. También es
Mapping
, pero suFromPath
será elFromPath
de la principal más elFromPath
de esta estructura.Para las partes secundarias, suponga que tiene la estructura:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
Puede especificar una
Mapping
que tiene este aspecto:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
Estructura SelectFields
Especifica una transformación que elige las claves de propiedad de datos que desea conservar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
Estructura DropFields
Especifica una transformación que elige las claves de propiedad de datos que desea eliminar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
Estructura RenameField
Especifica una transformación que cambia el nombre de una única clave de propiedad de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
SourcePath
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos de los datos de origen.
-
TargetPath
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos de los datos de destino.
Estructura Spigot
Especifica una transformación que escribe ejemplos de los datos en un bucket de Amazon S3.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Una ruta en Amazon S3 donde la transformación escribe un subconjunto de registros del conjunto de datos en un archivo JSON en un bucket de Amazon S3.
-
Topk
: número (entero), 100 como máximo.Especifica un número de registros que se escribirán a partir del principio del conjunto de datos.
-
Prob
: número (doble), 1 como máximo.La probabilidad (un valor decimal con un valor máximo de 1) de seleccionar un registro determinado. Un valor 1 indica que cada fila leída del conjunto de datos debe incluirse en la salida de ejemplo.
Estructura Join
Especifica una transformación que une dos conjuntos de datos en uno mediante una frase de comparación en las claves de propiedad de datos especificadas. Puede utilizar combinaciones interna, externa, izquierda, derecha, semicombinación izquierda y anticombinación izquierda.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
JoinType
Obligatorio: cadena UTF-8 (valores válidos:equijoin="EQUIJOIN"
|left="LEFT"
|right="RIGHT"
|outer="OUTER"
|leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
).Especifica el tipo de unión que se va a realizar en los conjuntos de datos.
-
Columns
: Obligatorio: una matriz de objetos JoinColumn, con 2 estructuras como mínimo y 2 estructuras como máximo.Una lista de las dos columnas que se van a unir.
Estructura JoinColumn
Especifica una columna que se va a unir.
Campos
-
From
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La columna que se va a unir.
-
Keys
: obligatorio: una matriz de cadenas UTF-8.La clave de la columna que se va a unir.
Estructura SplitFields
Especifica una transformación que divide las claves de propiedad de datos en dos DynamicFrames
. La salida es una recopilación de DynamicFrames
: uno con las claves de propiedad de datos seleccionadas y el otro con las claves de propiedad de datos restantes.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Paths
: obligatorio: una matriz de cadenas UTF-8.Una ruta JSON a una variable de la estructura de datos.
Estructura SelectFromCollection
Especifica una transformación que elige un DynamicFrame
de una recopilación de DynamicFrames
. El resultado es el DynamicFrame
seleccionado
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Index
– Obligatorio: número (entero), cero como máximo.Índice del DynamicFrame que se va a seleccionar.
Estructura FillMissingValues
Especifica una transformación que localiza registros en el conjunto de datos que tienen valores faltantes y agrega un nuevo campo con un valor determinado por imputación. El conjunto de datos de entrada se utiliza para formar al modelo de machine learning que determina cuál debe ser el valor que falta.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
ImputedPath
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se imputa.
-
FilledPath
: cadena UTF-8 que coincide con el Custom string pattern #59.Una ruta JSON a una variable de la estructura de datos del conjunto de datos que se rellena.
Estructura Filter
Especifica una transformación que divide un conjunto de datos en dos, en función de una condición de filtro.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
LogicalOperator
: obligatorio: cadena UTF-8 (valores válidos:AND
|OR
).El operador utilizado para filtrar filas mediante la comparación del valor de clave con un valor especificado.
-
Filters
(obligatorio): una matriz de objetos FilterExpression.Especifica una expresión de filtro.
Estructura FilterExpression
Especifica una expresión de filtro.
Campos
-
Operation
– Obligatorio: cadena UTF-8 (valores válidos:EQ
|LT
|GT
|LTE
|GTE
|REGEX
|ISNULL
).El tipo de operación que se va a realizar en la expresión.
-
Negated
: booleano.Si se va a negar la expresión.
-
Values
(obligatorio): una matriz de objetos FilterValue.Una lista de valores de filtro.
Estructura FilterValue
Representa una única entrada en la lista de valores de una FilterExpression
.
Campos
-
Type
: obligatorio: cadena UTF-8 (valores válidos:COLUMNEXTRACTED
|CONSTANT
).El tipo de valor de filtro.
-
Value
: obligatorio: una matriz de cadenas UTF-8.El valor que se va a asociar.
Estructura CustomCode
Especifica una transformación que utiliza el código personalizado que proporciona el usuario para llevar a cabo la transformación de datos. La salida es una recopilación de DynamicFrames.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Code
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #52.El código personalizado que se utiliza para llevar a cabo la transformación de datos.
-
ClassName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre definido para la clase de nodo de código personalizado.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para la transformación de código personalizada.
Estructura SparkSQL
Especifica una transformación en la que se ingresa una consulta SQL mediante la sintaxis de Spark SQL para transformar los datos. La salida es un único DynamicFrame
.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.Las entradas de datos identificadas por los nombres de sus nodos. Puede asociar un nombre de tabla a cada nodo de entrada para utilizarlo en la consulta SQL. El nombre que elija debe cumplir las restricciones de nomenclatura de Spark SQL.
-
SqlQuery
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #60.Una consulta SQL que debe utilizar la sintaxis de Spark SQL y devolver un único conjunto de datos.
-
SqlAliases
(obligatorio): una matriz de objetos SQLAlias.Una lista de alias. Un alias permite especificar qué nombre se va a utilizar en SQL para una entrada determinada. Por ejemplo, tiene un origen de datos denominado “MyDataSource“. Si especifica
From
como MyDataSource yAlias
como SQLName, luego, en su SQL puede hacer lo siguiente:select * from SqlName
y eso obtiene datos de MyDataSource.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para la transformación de SparkSQL.
Estructura SQLAlias
Representa una única entrada en la lista de valores de SqlAliases
.
Campos
-
From
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #58.Una tabla o columna de una tabla.
-
Alias
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Un nombre temporal dado a una tabla o a una columna de una tabla.
Estructura DropNullFields
Especifica una transformación que elimina columnas del conjunto de datos si todos los valores de la columna son “nulos”. De forma predeterminada, AWS Glue Studio reconocerá los objetos nulos, pero algunos valores, como las cadenas vacías, las cadenas que son “nulas”, los enteros -1 u otros marcadores de posición, como los ceros, no se reconocen de manera automática como nulos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
NullCheckBoxList
: un objeto NullCheckBoxList.Una estructura que representa si ciertos valores se reconocen como valores nulos para su eliminación.
-
NullTextList
: matriz de objetos NullValueField, con 50 estructuras como máximo.Una estructura que especifica una lista de estructuras NullValueField que representan un valor nulo personalizado, como cero u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.
La transformación
DropNullFields
elimina los valores nulos personalizados solo si tanto el valor del marcador de posición nulo como el tipo de datos coinciden con los datos.
Estructura NullCheckBoxList
Representa si ciertos valores se reconocen como valores nulos para su eliminación.
Campos
-
IsEmpty
: booleano.Especifica que una cadena vacía se considera un valor nulo.
-
IsNullString
: booleano.Especifica que un valor que deletrea la palabra “nulo” se considera un valor nulo.
-
IsNegOne
: booleano.Especifica que un valor entero de -1 se considera un valor nulo.
Estructura NullValueField
Representa un valor nulo personalizado, como ceros u otro valor que se utiliza como marcador de posición nulo exclusivo del conjunto de datos.
Campos
-
Value
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El valor del marcador de posición nulo.
-
Datatype
: obligatorio: objeto Tipo de datos.El tipo de datos del valor.
Estructura Datatype
Una estructura que representa el tipo de datos del valor.
Campos
-
Id
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #58.El tipo de datos del valor.
-
Label
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #58.Una etiqueta asignada al tipo de datos.
Estructura Merge
Especifica una transformación que fusiona un DynamicFrame
con una instancia provisional de DynamicFrame
en función de las claves principales especificadas para identificar registros. Los registros duplicados (registros con las mismas claves principales) no se eliminan.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Source
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #58.El
DynamicFrame
de origen que se fusionará con unDynamicFrame
de instancia provisional. -
PrimaryKeys
: obligatorio: una matriz de cadenas UTF-8.La lista de campos de clave principal para hacer coincidir los registros de los marcos dinámicos de origen y provisionales.
Estructura Union
Especifica una transformación que combina las filas de dos o más conjuntos de datos en un único resultado.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con 2 cadenas como mínimo y 2 cadenas como máximo.Las entradas del ID de nodo a la transformación.
-
UnionType
: obligatorio: cadena UTF-8 (valores válidos:ALL
|DISTINCT
).Indica el tipo de transformación de combinación.
Especifique
ALL
para unir todas las filas de los orígenes de datos al DynamicFrame resultante. La combinación resultante no elimina las filas duplicadas.Especifique
DISTINCT
para eliminar filas duplicadas en el DynamicFrame resultante.
Estructura PIIDetection
Especifica una transformación que identifica, elimina o enmascara datos PII.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas del ID de nodo a la transformación.
-
PiiType
: obligatorio: cadena UTF-8 (valores válidos:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
).Indica el tipo de transformación PIIDDetection.
-
EntityTypesToDetect
: obligatorio: una matriz de cadenas UTF-8.Indica los tipos de entidades que la transformación PIIDProtection identificará como datos PII.
Las entidades de tipo PII incluyen: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE
-
OutputColumnName
: cadena UTF-8 que coincide con el Custom string pattern #59.Indica el nombre de columna de salida que contendrá cualquier tipo de entidad detectado en esa fila.
-
SampleFraction
: número (doble), 1 como máximo.Indica la fracción de los datos que se van a muestrear al buscar entidades PII.
-
ThresholdFraction
: número (doble), 1 como máximo.Indica la fracción de los datos que deben cumplirse para que una columna se identifique como datos de PII.
-
MaskValue
: cadena UTF-8, de 256 bytes de largo como máximo, que coincide con Custom string pattern #56.Indica el valor que sustituirá a la entidad detectada.
Estructura Aggregate
Especifica una transformación que agrupa las filas según los campos elegidos y calcula el valor agregado mediante una función especificada.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Especifica los campos y filas que se utilizarán como entradas para la transformación agregada.
-
Groups
: obligatorio: una matriz de cadenas UTF-8.Especifica los campos para agrupar.
-
Aggs
: obligatorio: una matriz de objetos AggregateOperation, con 1 estructura como mínimo y 30 estructuras como máximo.Especifica las funciones agregadas que se van a realizar en campos especificados.
Estructura DropDuplicates
Especifica una transformación que elimina las filas de datos repetidos de un conjunto de datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de transformación.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de datos identificadas por los nombres de sus nodos.
-
Columns
: matriz de cadenas UTF-8.Nombre de las columnas que se van a fusionar o eliminar si se repiten.
Estructura GovernedCatalogTarget
Especifica un destino de datos que escribe en Amazon S3 mediante AWS Glue Data Catalog.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del destino de datos.
-
Inputs
: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos que son entradas para el destino de datos.
-
PartitionKeys
: matriz de cadenas UTF-8.Especifica la partición nativa mediante una secuencia de claves.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la tabla de la base de datos de escritura.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El nombre de la base de datos de escritura.
-
SchemaChangePolicy
: un objeto CatalogSchemaChangePolicy.Una política que especifica los comportamientos de actualización del catálogo gobernado.
Estructura GovernedCatalogSource
Especifica un almacén de datos en el AWS Glue Data Catalog gobernado.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del almacén de datos.
-
Database
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La base de datos de lectura.
-
Table
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La tabla de base de datos de lectura.
-
PartitionPredicate
: cadena UTF-8 que coincide con el Custom string pattern #59.Se eliminan las particiones que cumplen con este predicado. Los archivos comprendidos en el período de retención de estas particiones no se eliminan. Configurar en
""
, valor vacío de forma predeterminada. -
AdditionalOptions
: un objeto S3SourceAdditionalOptions.Especifica opciones de conexión adicionales.
Estructura AggregateOperation
Especifica el conjunto de parámetros necesarios para llevar a cabo la agregación en la transformación de agregación.
Campos
-
Column
: obligatorio: una matriz de cadenas UTF-8.Especifica la columna del conjunto de datos en la que se aplicará la función de agregación.
-
AggFunc
: obligatorio: cadena UTF-8 (valores válidos:avg
|countDistinct
|count
|first
|last
|kurtosis
|max
|min
|skewness
|stddev_samp
|stddev_pop
|sum
|sumDistinct
|var_samp
|var_pop
).Especifica la función de agregación que se aplicará.
Las posibles funciones de agregación incluyen: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop
Estructura GlueSchema
Especifica un esquema definido por el usuario cuando un esquema no puede determinarse mediante AWS Glue.
Campos
-
Columns
: matriz de objetos GlueStudioSchemaColumn.Especifica las definiciones de columna que componen un esquema de AWS Glue.
Estructura GlueStudioSchemaColumn
Especifica una sola columna en una definición de esquema de AWS Glue.
Campos
-
Name
– Obligatorio: cadena UTF-8, de 1024 bytes de largo como máximo, que coincide con Single-line string pattern.El nombre de la columna en el esquema de AWS Glue Studio.
-
Type
: cadena UTF-8 con un máximo de 131072 bytes de largo, que coincide con el Single-line string pattern.El tipo de Hive de esta columna del esquema de AWS Glue Studio.
Estructura GluStudioColumn
Especifica una sola columna en AWS Glue Studio.
Campos
-
Key
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.La clave de la columna en AWS Glue Studio.
-
FullPath
: obligatorio: una matriz de cadenas UTF-8.La dirección URL completa de la columna en AWS Glue Studio.
-
Type
– Obligatorio: matriz UTF-8 (valores válidos:array="ARRAY"
|bigint="BIGINT"
|bigint array="BIGINT_ARRAY"
|binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
|float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
|smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
|string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
|null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
).El tipo de la columna en AWS Glue Studio.
-
Children
: un conjunto de estructuras.Los elementos secundarios de la columna principal de AWS Glue Studio.
Estructura de DynamicTransform
Especifica el conjunto de parámetros necesarios para hacer la transformación dinámica.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el nombre de la transformación dinámica.
-
TransformName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el nombre de la transformación dinámica tal como aparece en el editor visual de AWS Glue Studio.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Especifica las entradas necesarias para la transformación dinámica.
-
Parameters
: matriz de objetos TransformConfigParameter.Especifica los parámetros de la transformación dinámica.
-
FunctionName
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el nombre de la función de la transformación dinámica.
-
Path
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la ruta de los archivos de origen y de configuración de la transformación dinámica.
-
Version
: cadena UTF-8 que coincide con el Custom string pattern #59.Este campo no se utiliza y quedará en desuso en la versión futura.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para la transformación dinámica.
Estructura de TransformConfigParameter
Especifica los parámetros de la transformación dinámica en el archivo de configuración.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el nombre del parámetro de la transformación dinámica en el archivo de configuración.
-
Type
– Obligatorio: cadena UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica el tipo de parámetro de la transformación dinámica en el archivo de configuración.
-
ValidationRule
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica la regla de validación de la transformación dinámica en el archivo de configuración.
-
ValidationMessage
: cadena UTF-8 que coincide con el Custom string pattern #59.Especifica el mensaje de validación de la transformación dinámica en el archivo de configuración.
-
Value
: matriz de cadenas UTF-8.Especifica el valor del parámetro de la transformación dinámica en el archivo de configuración.
-
ListType
: cadena UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica el tipo de lista del parámetro de la transformación dinámica en el archivo de configuración.
-
IsOptional
: booleano.Especifica si es opcional o no el parámetro de la transformación dinámica en el archivo de configuración.
Estructura de EvaluateDataQuality
Especifica los criterios de evaluación de la calidad de los datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre de la evaluación de la calidad de los datos.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Las entradas de la evaluación de la calidad de los datos.
-
Ruleset
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 65 536 bytes de largo como máximo, que coincide con Custom string pattern #57.El conjunto de reglas para la evaluación de la calidad de los datos.
-
Output
: cadena UTF-8 (valores válidos:PrimaryInput
|EvaluationResults
).La salida de la evaluación de la calidad de los datos.
-
PublishingOptions
: un objeto DQResultsPublishingOptions.Opciones para configurar cómo se publican los resultados.
-
StopJobOnFailureOptions
: un objeto DQStopJobOnFailureOptions.Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.
Estructura de DQResultsPublishingOptions
Opciones para configurar cómo se publican los resultados de la evaluación de la calidad de los datos.
Campos
-
EvaluationContext
: cadena UTF-8 que coincide con el Custom string pattern #58.El contexto de la evaluación.
-
ResultsS3Prefix
: cadena UTF-8 que coincide con el Custom string pattern #59.El prefijo de Amazon S3 se antepuso a los resultados.
-
CloudWatchMetricsEnabled
: booleano.Habilite las métricas de los resultados de la calidad de datos.
-
ResultsPublishingEnabled
: booleano.Habilite la publicación de los resultados de la calidad de datos.
Estructura de DQStopJobOnFailureOptions
Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.
Campos
-
StopJobOnFailureTiming
: cadena UTF-8 (valores válidos:Immediate
|AfterDataLoad
).Cuándo detener el trabajo si se produce un error en la evaluación de la calidad de los datos. Las opciones son Immediate o AfterDataLoad.
Estructura EvaluateDataQualityMultiFrame
Especifica los criterios de evaluación de la calidad de los datos.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre de la evaluación de la calidad de los datos.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.Las entradas de la evaluación de la calidad de los datos. La primera entrada en esta lista es el origen de datos principal.
-
AdditionalDataSources
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #61.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Los alias de todas los orígenes de datos excepto las principales.
-
Ruleset
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 65 536 bytes de largo como máximo, que coincide con Custom string pattern #57.El conjunto de reglas para la evaluación de la calidad de los datos.
-
PublishingOptions
: un objeto DQResultsPublishingOptions.Opciones para configurar cómo se publican los resultados.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 (valores válidos:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
).Cada valor es una cadena UTF-8.
Opciones para configurar el comportamiento de la transformación en tiempo de ejecución.
-
StopJobOnFailureOptions
: un objeto DQStopJobOnFailureOptions.Opciones para configurar la forma en que se detendrá el trabajo si se produce un error en la evaluación de la calidad de los datos.
Estructura de receta
Un nodo de AWS Glue Studio que utiliza una receta de AWS Glue DataBrew en los trabajos de AWS Glue.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del nodo de AWS Glue Studio.
-
Inputs
: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.Los nodos de entrada al nodo de la receta, identificados mediante el ID.
-
RecipeReference
: un objeto RecipeReference.Una referencia a la receta de DataBrew utilizada por el nodo.
-
RecipeSteps
: matriz de objetos RecipeStep.Pasos de transformación utilizados en el nodo de receta.
Estructura RecipeReference
Una referencia a una receta de AWS Glue DataBrew.
Campos
-
RecipeArn
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El ARN de la receta de DataBrew.
-
RecipeVersion
- Obligatorio: cadena UTF-8, con no menos de 1 byte de largo o más de 16.La RecipeVersion de la receta de DataBrew.
Estructura de SnowflakeNodeData
Especifica la configuración de los nodos de Snowflake en AWS Glue Studio.
Campos
-
SourceType
: cadena UTF-8 que coincide con el Custom string pattern #58.Especifica cómo se especifican los datos recuperados. Valores válidos:
"table"
,"query"
. -
Connection
: un objeto Opción.Especifica una conexión del Catálogo de datos de AWS Glue a un punto de conexión de Snowflake.
-
Schema
: cadena UTF-8.Especifica un esquema de base de datos de Snowflake para que lo utilice el nodo.
-
Table
: cadena UTF-8.Especifica una tabla de Snowflake para que lo utilice el nodo.
-
Database
: cadena UTF-8.Especifica una base de datos de Snowflake para que lo utilice el nodo.
-
TempDir
: cadena UTF-8 que coincide con el Custom string pattern #59.En la actualidad no se utiliza.
-
IamRole
: un objeto Opción.En la actualidad no se utiliza.
-
AdditionalOptions
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #59.
Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #59.
Especifica opciones adicionales que se pasan al conector de Snowflake. Si las opciones se especifican en otra parte de este nodo, esto tendrá prioridad.
-
SampleQuery
: cadena UTF-8.Una cadena de SQL que se utiliza para recuperar datos con el sourcetype
query
. -
PreAction
: cadena UTF-8.Una cadena de SQL que se ejecuta antes de que el conector Snowflake lleve a cabo sus acciones estándar.
-
PostAction
: cadena UTF-8.Una cadena SQL que se ejecuta después de que el conector Snowflake lleve a cabo sus acciones estándar.
-
Action
: cadena UTF-8.Especifica qué acción se debe realizar al escribir en una tabla con datos preexistentes. Valores válidos:
append
,merge
,truncate
,drop
. -
Upsert
: booleano.Se utiliza cuando Action es
append
. Especifica el comportamiento de la resolución cuando ya existe una fila. Si es verdadero, se actualizarán las filas preexistentes. Si es falso, se insertarán esas filas. -
MergeAction
: cadena UTF-8 que coincide con el Custom string pattern #58.Especifica una acción de combinación. Valores válidos:
simple
,custom
. Si es simple, el comportamiento de combinación se define medianteMergeWhenMatched
yMergeWhenNotMatched
. Si es personalizado, se define medianteMergeClause
. -
MergeWhenMatched
: cadena UTF-8 que coincide con el Custom string pattern #58.Especifica cómo resolver los registros que coinciden con datos preexistentes al combinarlos. Valores válidos:
update
,delete
. -
MergeWhenNotMatched
: cadena UTF-8 que coincide con el Custom string pattern #58.Especifica cómo procesar los registros que no coinciden con los datos preexistentes al combinarlos. Valores válidos:
insert
,none
. -
MergeClause
: cadena UTF-8.Una instrucción de SQL que especifica un comportamiento de combinación personalizado.
-
StagingTable
: cadena UTF-8.El nombre de una tabla de preparación que se utiliza al realizar acciones
merge
o upsertappend
. Los datos se escriben en esta tabla y, a continuación, se mueven atable
mediante una acción posterior generada. -
SelectedColumns
: matriz de objetos Opción.Especifica las columnas combinadas para identificar un registro al detectar coincidencias de combinaciones y alteraciones. Una lista de estructuras con claves
value
,label
ydescription
. Cada estructura describe una columna. -
AutoPushdown
: booleano.Especifica si está habilitada la función automática de consultas pushdown. Si la función pushdown está habilitada, cuando se ejecuta una consulta en Spark, si parte de la consulta se puede “enviar” al servidor de Snowflake, se empuja hacia abajo. Esto mejora el rendimiento de algunas consultas.
-
TableSchema
: matriz de objetos Opción.Define manualmente el esquema de destino del nodo. Una lista de estructuras con claves
value
,label
ydescription
. Cada estructura describe una columna.
Estructura de SnowflakeSource
Especifica un origen de datos de Snowflake.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de datos de Snowflake.
-
Data
: obligatorio: objeto SnowflakeNodeData.Configuración del origen de datos de Snowflake.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica los esquemas definidos por el usuario para los datos de salida.
Estructura de SnowflakeTarget
Especifica un destino de Snowflake.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre del origen de Snowflake.
-
Data
: obligatorio: objeto SnowflakeNodeData.Especifica los datos del nodo de destino de Snowflake.
-
Inputs
: matriz de cadenas UTF-8, no menos de una cadena o más de una.Los nodos que son entradas para el destino de datos.
Estructura de ConnectorDataSource
Especifica una fuente generada con opciones de conexión estándar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre de este nodo de origen.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El
connectionType
, tal como se proporciona en la biblioteca subyacente de AWS Glue. Este tipo de nodo admite los siguientes tipos de conexión:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8.
Cada valor es una cadena UTF-8.
Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la documentación de AWS Glue.
-
OutputSchemas
: matriz de objetos GlueSchema.Especifica el esquema de datos para este origen.
Estructura de ConnectorDataTarget
Especifica un destino generado con opciones de conexión estándar.
Campos
-
Name
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #61.El nombre de este nodo de destino.
-
ConnectionType
: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #59.El
connectionType
, tal como se proporciona en la biblioteca subyacente de AWS Glue. Este tipo de nodo admite los siguientes tipos de conexión:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
– Obligatorio: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8.
Cada valor es una cadena UTF-8.
Un mapa que especifica opciones de conexión para el nodo. Puede encontrar las opciones de conexión estándar para el tipo de conexión correspondiente en la sección Parámetros de conexión de la documentación de AWS Glue.
-
Inputs
: matriz de cadenas UTF-8, no menos de una cadena o más de una.Los nodos que son entradas para el destino de datos.
Estructura de RecipeStep
Paso de la receta utilizado en un nodo de receta de preparación de datos de AWS Glue Studio.
Campos
-
Action
: obligatorio: objeto RecipeAction.Acción de transformación del paso de la receta.
-
ConditionExpressions
: matriz de objetos ConditionExpression.Expresiones de condición para el paso de la receta.
Estructura de RecipeAction
Acciones definidas en el nodo de receta de preparación de datos de AWS Glue Studio.
Campos
-
Operation
– Obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 128 bytes de largo como máximo, que coincide con el Custom string pattern #54.Funcionamiento de la acción de la receta.
-
Parameters
: matriz de mapas de pares clave-valor.Cada clave es una cadena UTF-8 con 1 byte de largo como mínimo y 128 bytes de largo como máximo, que coincide con Custom string pattern #55.
Cada valor es una cadena UTF-8 con 1 byte de largo como mínimo o 32 768 como máximo.
Parámetros de la acción de la receta.
Estructura de ConditionExpression
Expresión de la condición definida en el nodo de receta de preparación de datos de AWS Glue Studio.
Campos
-
Condition
– Obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 128 bytes de largo como máximo, que coincide con el Custom string pattern #54.Condición de la expresión de condición.
-
Value
: cadena UTF-8, no más de 1024 bytes de largo.Valor de la expresión de condición.
-
TargetColumn
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 1024 como máximo.Columna de destino de las expresiones de condición.