API de trabalhos visuais
A API de trabalhos visuais permite que você crie trabalhos de integração de dados usando a API do AWS Glue com base em um objeto JSON que representa uma configuração visual de um trabalho do AWS Glue.
Uma lista de CodeGenConfigurationNodes
é fornecida a uma API de trabalho de criação ou atualização para registrar um DAG no AWS Glue Studio para o trabalho criado e gerar o código associado.
Tipos de dados
Estrutura CodeGenConfigurationNode
O CodeGenConfigurationNode
enumera todos os tipos de nós válidos. Uma e apenas uma de suas variáveis membro podem ser preenchidas.
Campos
-
AthenaConnectorSource
– Um objeto AthenaConnectorSource.Especifica um conector para uma fonte de dados do Amazon Athena.
-
JDBCConnectorSource
– Um objeto JDBCConnectorSource.Especifica um conector para uma fonte de dados JDBC.
-
SparkConnectorSource
– Um objeto SparkConnectorSource.Especifica um conector para uma fonte de dados do Apache Spark.
-
CatalogSource
– Um objeto CatalogSource.Especifica um datastore no catálogo de dados do.AWS Glue
-
RedshiftSource
– Um objeto RedshiftSource.Especifica um datastore do Amazon Redshift.
-
S3CatalogSource
– Um objeto S3CatalogSource.Especifica um datastore do Amazon S3 no catálogo de dados do.AWS Glue
-
S3CsvSource
– Um objeto S3CSVSource.Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.
-
S3JsonSource
– Um objeto S3JsonSource.Especifica um datastore JSON armazenado no Amazon S3.
-
S3ParquetSource
– Um objeto S3ParquetSource.Especifica um datastore do Apache Parquet armazenado no Amazon S3.
-
RelationalCatalogSource
– Um objeto RelationalCatalogSource.Especifica um datastore de catálogo relacional no AWS Glue Data Catalog.
-
DynamoDBCatalogSource
– Um objeto DynamoDBCatalogSource.Especifica um datastore de catálogo relacional do DynamoDBC no AWS Glue Data Catalog.
-
JDBCConnectorTarget
– Um objeto JDBCConnectorTarget.Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.
-
SparkConnectorTarget
– Um objeto SparkConnectorTarget.Especifica um destino que usa um conector Apache Spark.
-
CatalogTarget
– Um objeto BasicCatalogTarget.Especifica um destino que usa uma tabela do catálogo de dados do AWS Glue.
-
RedshiftTarget
– Um objeto RedshiftTarget.Especifica um destino que usa o Amazon Redshift.
-
S3CatalogTarget
– Um objeto S3CatalogTarget.Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.
-
S3GlueParquetTarget
– Um objeto S3GlueParquetTarget.Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.
-
S3DirectTarget
– Um objeto S3DirectTarget.Especifica um destino de dados que grava no Amazon S3.
-
ApplyMapping
– Um objeto ApplyMapping.Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.
-
SelectFields
– Um objeto SelectFields.Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.
-
DropFields
– Um objeto DropFields.Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.
-
RenameField
– Um objeto RenameField.Especifica uma transformação que renomeia uma única chave de propriedade de dados.
-
Spigot
– Um objeto Spigot.Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.
-
Join
– Um objeto Ingressar.Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).
-
SplitFields
– Um objeto SplitFields.Especifica uma transformação que divide chaves de propriedade de dados em dois
DynamicFrames
. A saída é uma coleção deDynamicFrames
: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes. -
SelectFromCollection
– Um objeto SelectFromCollection.Especifica uma transformação que escolhe um
DynamicFrame
de uma coleção deDynamicFrames
. A saída é oDynamicFrame
selecionado. -
FillMissingValues
– Um objeto FillMissingValues.Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.
-
Filter
– Um objeto Filtro.Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.
-
CustomCode
– Um objeto CustomCode.Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.
-
SparkSQL
– Um objeto SparkSQL.Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único
DynamicFrame
. -
DirectKinesisSource
– Um objeto DirectKinesisSource.Especifica uma fonte de dados direta do Amazon Kinesis.
-
DirectKafkaSource
– Um objeto DirectKafkaSource.Especifica um datastore do Apache Kafka.
-
CatalogKinesisSource
– Um objeto CatalogKinesisSource.Especifica uma fonte de dados do Kinesis no catálogo de dados do AWS Glue.
-
CatalogKafkaSource
– Um objeto CatalogKafkaSource.Especifica um datastore do Apache Kafka no catálogo de dados.
-
DropNullFields
– Um objeto DropNullFields.Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como strings vazias, strings que sejam "nulas", inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.
-
Merge
– Um objeto Mesclar.Especifica uma transformação que mescla um
DynamicFrame
com umDynamicFrame
de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados. -
Union
– Um objeto Union.Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.
-
PIIDetection
– Um objeto PIIdetection.Especifica uma transformação que identifica, remove ou mascara dados de PII.
-
Aggregate
– Um objeto Agregar.Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.
-
DropDuplicates
– Um objeto DropDuplicates.Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.
-
GovernedCatalogTarget
– Um objeto GovernedCatalogTarget.Especifica um destino de dados que grava em um catálogo governado.
-
GovernedCatalogSource
– Um objeto GovernedCatalogSource.Especifica uma fonte de dados em um catálogo de dados governado.
-
MicrosoftSQLServerCatalogSource
– Um objeto MicrosoftSQLServerCatalogSource.Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.
-
MySQLCatalogSource
– Um objeto MySQLCatalogSource.Especifica uma fonte de dados do MySQL no AWS Glue Data Catalog.
-
OracleSQLCatalogSource
– Um objeto OracleSQLCatalogSource.Especifica uma fonte de dados do Oracle no AWS Glue Data Catalog.
-
PostgreSQLCatalogSource
– Um objeto PostgreSQLCatalogSource.Especifica uma fonte de dados do Postgres SQL no AWS Glue Data Catalog.
-
MicrosoftSQLServerCatalogTarget
– Um objeto MicrosoftSQLServerCatalogTarget.Especifica um destino que usa o Microsoft SQL.
-
MySQLCatalogTarget
– Um objeto MySQLCatalogTarget.Especifica um destino que usa o MySQL.
-
OracleSQLCatalogTarget
– Um objeto OracleSQLCatalogTarget.Especifica um destino que usa o Oracle SQL.
-
PostgreSQLCatalogTarget
– Um objeto PostgreSQLCatalogTarget.Especifica um destino que usa o Postgres SQL.
-
DynamicTransform
– Um objeto DynamicTransform.Especifica uma transformação visual personalizada criada por um usuário.
-
EvaluateDataQuality
– Um objeto EvaluateDataQuality.Especifica os critérios da avaliação de qualidade dos dados.
-
S3CatalogHudiSource
– Um objeto S3CatalogHudiSource.Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog. A fonte de dados deve estar armazenada no Amazon S3.
-
CatalogHudiSource
– Um objeto CatalogHudiSource.Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog.
-
S3HudiSource
– Um objeto S3HudiSource.Especifica uma fonte de dados Hudi armazenada no Amazon S3.
-
S3HudiCatalogTarget
– Um objeto S3HudiCatalogTarget.Especifica um destino de dados que grava em uma fonte de dados Hudi no AWS Glue.
-
S3HudiDirectTarget
– Um objeto S3HudiDirectTarget.Especifica um destino que grava em uma fonte de dados Hudi no Amazon S3.
-
S3CatalogDeltaSource
– Um objeto S3CatalogDeltaSource.Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue. A fonte de dados deve estar armazenada no Amazon S3.
-
CatalogDeltaSource
– Um objeto CatalogDeltaSource.Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue.
-
S3DeltaSource
– Um objeto S3DeltaSource.Especifica uma fonte de dados do Delta Lake armazenada no Amazon S3.
-
S3DeltaCatalogTarget
– Um objeto S3DeltaCatalogTarget.Especifica um destino que grava em uma fonte de dados do Delta Lake no catálogo de dados do AWS Glue.
-
S3DeltaDirectTarget
– Um objeto S3DeltaDirectTarget.Especifica um destino que grava em uma fonte de dados do Delta Lake no Amazon S3.
-
AmazonRedshiftSource
– Um objeto AmazonRedshiftSource.Especifica um destino que grava em uma fonte de dados no Amazon Redshift.
-
AmazonRedshiftTarget
– Um objeto AmazonRedshiftTarget.Especifica um destino que grava em um destino de dados no Amazon Redshift.
-
EvaluateDataQualityMultiFrame
– Um objeto EvaluateDataQualityMultiFrame.Especifica os critérios da avaliação de qualidade dos dados. Permite vários dados de entrada e retorna um conjunto de quadros dinâmicos.
-
Recipe
– Um objeto Fórmula.Especifica um nó de fórmula do AWS Glue DataBrew.
-
SnowflakeSource
– Um objeto SnowflakeSource.Especifica uma fonte de dados do Snowflake.
-
SnowflakeTarget
– Um objeto SnowflakeTarget.Especifica um destino que grava em uma fonte de dados do Snowflake.
-
ConnectorDataSource
– Um objeto ConnectorDataSource.Especifica uma fonte gerada com opções de conexão padrão.
-
ConnectorDataTarget
– Um objeto ConnectorDataTarget.Especifica um destino gerado com opções de conexão padrão.
Estrutura JDBCConnectorOptions
Opções de conexão adicionais para o conector.
Campos
-
FilterPredicate
– String UTF-8 correspondente a Custom string pattern #59.Cláusula de condição extra para filtrar dados da fonte. Por exemplo:
BillingCity='Mountain View'
Ao usar uma consulta em vez de um nome de tabela, você deve validar que a consulta funciona com o
filterPredicate
especificado. -
PartitionColumn
– String UTF-8 correspondente a Custom string pattern #59.O nome de uma coluna de inteiros usada para o particionamento. Essa opção só funciona quando está incluída em
lowerBound
,upperBound
enumPartitions
. Essa opção funciona da mesma maneira que no leitor JDBC Spark SQL. -
LowerBound
: número (inteiro longo), no máximo None (Nenhum).O valor mínimo de
partitionColumn
que é usado para decidir o passo de partição. -
UpperBound
: número (inteiro longo), no máximo None (Nenhum).O valor máximo de
partitionColumn
que é usado para decidir o passo de partição. -
NumPartitions
: número (inteiro longo), no máximo None (Nenhum).O número de partições. Esse valor, juntamente com
lowerBound
(inclusive) eupperBound
(exclusive), forma os passos de partição para as expressões de cláusulaWHERE
geradas que são usadas para dividir apartitionColumn
. -
JobBookmarkKeys
– Uma matriz de strings UTF-8.O nome das chaves de marcador de trabalho pelas quais classificar.
-
JobBookmarkKeysSortOrder
– String UTF-8 correspondente a Custom string pattern #59.Especifica ordem de classificação ascendente ou descendente.
-
DataTypeMapping
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 (valores válidos:
ARRAY
|BIGINT
|BINARY
|BIT
|BLOB
|BOOLEAN
|CHAR
|CLOB
|DATALINK
|DATE
|DECIMAL
|DISTINCT
|DOUBLE
|FLOAT
|INTEGER
|JAVA_OBJECT
|LONGNVARCHAR
|LONGVARBINARY
|LONGVARCHAR
|NCHAR
|NCLOB
|NULL
|NUMERIC
|NVARCHAR
|OTHER
|REAL
|REF
|REF_CURSOR
|ROWID
|SMALLINT
|SQLXML
|STRUCT
|TIME
|TIME_WITH_TIMEZONE
|TIMESTAMP
|TIMESTAMP_WITH_TIMEZONE
|TINYINT
|VARBINARY
|VARCHAR
).Cada valor é uma string UTF-8 (valores válidos:
DATE
|STRING
|TIMESTAMP
|INT
|FLOAT
|LONG
|BIGDECIMAL
|BYTE
|SHORT
|DOUBLE
).Mapeamento de tipo de dados personalizado que constrói um mapeamento a partir de um tipo de dados JDBC para um tipo de dados do AWS Glue. Por exemplo, a opção
"dataTypeMapping":{"FLOAT":"STRING"}
mapeia campos de dados JDBC do tipoFLOAT
para o tipoString
do Java chamando o métodoResultSet.getString()
do driver e o usa para construir o registro AWS Glue. O objetoResultSet
é implantado por cada driver, portanto, o comportamento é específico para o driver que você usa. Consulte a documentação do driver do JDBC para entender como ele executa as conversões.
Estrutura StreamingDataPreviewOptions
Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.
Campos
-
PollingTime
: número (longo), pelo menos 10.O tempo de sondagem, em milissegundos.
-
RecordPollingLimit
: número (longo), pelo menos 1.O limite para o número de registros sondados.
Estrutura AthenaConnectorSource
Especifica um conector para uma fonte de dados do Amazon Athena.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da conexão associada ao conector.
-
ConnectorName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O tipo de conexão, como marketplace.athena ou custom.athena, designando uma conexão com um datastore do Amazon Athena.
-
ConnectionTable
– String UTF-8 correspondente a Custom string pattern #59.O nome da tabela na fonte de dados.
-
SchemaName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do grupo de logs do CloudWatch a ser lido. Por exemplo,
/aws-glue/jobs/output
. -
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do Athena personalizada.
Estrutura JDBCConnectorSource
Especifica um conector para uma fonte de dados JDBC.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da conexão associada ao conector.
-
ConnectorName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um datastore JDBC.
-
AdditionalOptions
– Um objeto JDBCConnectorOptions.Opções de conexão adicionais para o conector.
-
ConnectionTable
– String UTF-8 correspondente a Custom string pattern #59.O nome da tabela na fonte de dados.
-
Query
– String UTF-8 correspondente a Custom string pattern #60.A tabela ou consulta SQL da qual obter os dados. Você pode especificar
ConnectionTable
ouquery
, mas não os dois. -
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do JDBC personalizada.
Estrutura SparkConnectorSource
Especifica um conector para uma fonte de dados do Apache Spark.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da conexão associada ao conector.
-
ConnectorName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de um conector que ajuda a acessar o datastore no AWS Glue Studio.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Opções de conexão adicionais para o conector.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do Spark personalizada.
Estrutura CatalogSource
Especifica um datastore no catálogo de dados do.AWS Glue
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura MySQLCatalogSource
Especifica uma fonte de dados do MySQL no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura PostgreSQLCatalogSource
Especifica uma fonte de dados do Postgres SQL no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura OracleSQLCatalogSource
Especifica uma fonte de dados do Oracle no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura MicrosoftSQLServerCatalogSource
Especifica uma fonte de dados do Microsoft SQL Server no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura CatalogKinesisSource
Especifica uma fonte de dados do Kinesis no catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
WindowSize
– Número (inteiro), não mais do que None (Nenhum).A quantidade de tempo gasto no processamento de cada micro lote.
-
DetectSchema
– Booleano.Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
StreamingOptions
– Um objeto KinesisStreamingSourceOptions.Opções adicionais para a fonte de dados de transmissão do Kinesis.
-
DataPreviewOptions
– Um objeto StreamingDataPreviewOptions.Opções adicionais para previsualização de dados.
Estrutura DirectKinesisSource
Especifica uma fonte de dados direta do Amazon Kinesis.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
WindowSize
– Número (inteiro), não mais do que None (Nenhum).A quantidade de tempo gasto no processamento de cada micro lote.
-
DetectSchema
– Booleano.Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.
-
StreamingOptions
– Um objeto KinesisStreamingSourceOptions.Opções adicionais para a fonte de dados de transmissão do Kinesis.
-
DataPreviewOptions
– Um objeto StreamingDataPreviewOptions.Opções adicionais para previsualização de dados.
Estrutura KinesisStreamingSourceOptions
Opções adicionais para a fonte de dados de transmissão do Amazon Kinesis.
Campos
-
EndpointUrl
– String UTF-8 correspondente a Custom string pattern #59.O URL do endpoint do Kinesis.
-
StreamName
– String UTF-8 correspondente a Custom string pattern #59.O nome do fluxo de dados do Kinesis.
-
Classification
– String UTF-8 correspondente a Custom string pattern #59.Uma classificação opcional.
-
Delimiter
– String UTF-8 correspondente a Custom string pattern #59.Especifica o caractere delimitador.
-
StartingPosition
– String UTF-8 (valores válidos:latest="LATEST"
|trim_horizon="TRIM_HORIZON"
|earliest="EARLIEST"
|timestamp="TIMESTAMP"
).A posição inicial no fluxo de dados do Kinesis de onde ler os dados. Os valores possíveis são
"latest"
,"trim_horizon"
,"earliest"
ou uma string de timestamp no formato UTC no padrãoyyyy-mm-ddTHH:MM:SSZ
(ondeZ
representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00-04:00"). O valor padrão é"latest"
.Observação: o uso de um valor que é uma string de timestamp no formato UTC para “StartingPosition” só é compatível com o AWS Glue a versão 4.0 ou posterior.
-
MaxFetchTimeInMs
: número (inteiro longo), no máximo None (Nenhum).O tempo máximo para o executor do trabalho ler registros referentes ao lote atual do fluxo de dados do Kinesis especificado em milissegundos (ms). Várias chamadas de API
GetRecords
podem ser feitas nesse período. O valor padrão é1000
. -
MaxFetchRecordsPerShard
: número (inteiro longo), no máximo None (Nenhum).O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis por microlote. Observação: o cliente poderá exceder esse limite se o trabalho de streaming já tiver lido registros extras do Kinesis (na mesma chamada get-records). Se
MaxFetchRecordsPerShard
precisa ser rigoroso, então precisa ser um múltiplo deMaxRecordPerRead
. O valor padrão é100000
. -
MaxRecordPerRead
: número (inteiro longo), no máximo None (Nenhum).O número máximo de registros a serem obtidos por fragmento no fluxo de dados do Kinesis em cada operação getRecords. O valor padrão é
10000
. -
AddIdleTimeBetweenReads
– Booleano.Adiciona um atraso de tempo entre duas operações getRecords consecutivas. O valor padrão é
"False"
. Essa opção só pode ser configurada para o Glue versão 2.0 e posterior. -
IdleTimeBetweenReadsInMs
: número (inteiro longo), no máximo None (Nenhum).O atraso mínimo entre duas operações getRecords consecutivas, especificado em ms. O valor padrão é
1000
. Essa opção só pode ser configurada para o Glue versão 2.0 e posterior. -
DescribeShardInterval
: número (inteiro longo), no máximo None (Nenhum).O intervalo de tempo mínimo entre duas chamadas de API ListShards para que seu script considere a refragmentação. O valor padrão é
1s
. -
NumRetries
– Número (inteiro), não mais do que None (Nenhum).O número máximo de novas tentativas para solicitações de API do Kinesis Data Streams. O valor padrão é
3
. -
RetryIntervalMs
: número (inteiro longo), no máximo None (Nenhum).O período de espera (especificado em ms) antes de repetir a chamada da API Kinesis Data Streams. O valor padrão é
1000
. -
MaxRetryIntervalMs
: número (inteiro longo), no máximo None (Nenhum).O período de espera máximo (especificado em ms) entre duas tentativas de uma chamada de API Kinesis Data Streams. O valor padrão é
10000
. -
AvoidEmptyBatches
– Booleano.Evita a criação de um trabalho de microlote vazio verificando se há dados não lidos no fluxo de dados do Kinesis antes do lote ser iniciado. O valor padrão é
"False"
. -
StreamArn
– String UTF-8 correspondente a Custom string pattern #59.O nome de recurso da Amazon (ARN) do fluxo de dados do Kinesis.
-
RoleArn
– String UTF-8 correspondente a Custom string pattern #59.O nome do recurso da Amazon (ARN) da função a ser assumida pelo uso do AWS Security Token Service (AWS STS). Essa função deve ter permissões para descrever ou ler operações de registro para o fluxo de dados do Kinesis. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com
"awsSTSSessionName"
. -
RoleSessionName
– String UTF-8 correspondente a Custom string pattern #59.Um identificador para a sessão que assume a função usando o AWS STS. Você deve usar esse parâmetro ao acessar um fluxo de dados em uma conta diferente. Usado em conjunto com
"awsSTSRoleARN"
. -
AddRecordTimestamp
– String UTF-8 correspondente a Custom string pattern #59.Quando essa opção for definida como "true", a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo fluxo. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.
-
EmitConsumerLagMetrics
– String UTF-8 correspondente a Custom string pattern #59.Quando a opção for definida como "true", para cada lote, serão emitidas métricas durante o período entre a hora que o registro mais antigo é recebido pelo tópico e a hora que ele chega ao AWS Glue para o CloudWatch. O nome da métrica é "glue.driver.streaming.maxConsumerLagInMs". O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.
-
StartingTimestamp
– String UTF-8.O timestamp do registro no fluxo de dados do Kinesis para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão
yyyy-mm-ddTHH:MM:SSZ
(onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").
Estrutura CatalogKafkaSource
Especifica um datastore do Apache Kafka no catálogo de dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
WindowSize
– Número (inteiro), não mais do que None (Nenhum).A quantidade de tempo gasto no processamento de cada micro lote.
-
DetectSchema
– Booleano.Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
StreamingOptions
– Um objeto KafkaStreamingSourceOptions.Especifica as opções de transmissão.
-
DataPreviewOptions
– Um objeto StreamingDataPreviewOptions.Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.
Estrutura DirectKafkaSource
Especifica um datastore do Apache Kafka.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
StreamingOptions
– Um objeto KafkaStreamingSourceOptions.Especifica as opções de transmissão.
-
WindowSize
– Número (inteiro), não mais do que None (Nenhum).A quantidade de tempo gasto no processamento de cada micro lote.
-
DetectSchema
– Booleano.Se o esquema deve ser determinado automaticamente a partir dos dados recebidos.
-
DataPreviewOptions
– Um objeto StreamingDataPreviewOptions.Especifica opções relacionadas à previsualização de dados para exibir uma amostra de seus dados.
Estrutura KafkaStreamingSourceOptions
Opções adicionais para transmissões.
Campos
-
BootstrapServers
– String UTF-8 correspondente a Custom string pattern #59.Uma lista de URLs do servidor de bootstrap, por exemplo, como
b-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094
. Essa opção deve ser especificada na chamada de API ou definida nos metadados da tabela no Data Catalog. -
SecurityProtocol
– String UTF-8 correspondente a Custom string pattern #59.O protocolo usado para se comunicar com os agentes. Os valores possíveis são
"SSL"
ou"PLAINTEXT"
. -
ConnectionName
– String UTF-8 correspondente a Custom string pattern #59.O nome da conexão.
-
TopicName
– String UTF-8 correspondente a Custom string pattern #59.O nome do tópico conforme especificado no Apache Kafka. É necessário especificar pelo menos um
"topicName"
,"assign"
ou"subscribePattern"
. -
Assign
– String UTF-8 correspondente a Custom string pattern #59.As
TopicPartitions
específicas a consumir. É necessário especificar pelo menos um"topicName"
,"assign"
ou"subscribePattern"
. -
SubscribePattern
– String UTF-8 correspondente a Custom string pattern #59.Uma string regex Java que identifica a lista de tópicos para assinar. É necessário especificar pelo menos um
"topicName"
,"assign"
ou"subscribePattern"
. -
Classification
– String UTF-8 correspondente a Custom string pattern #59.Uma classificação opcional.
-
Delimiter
– String UTF-8 correspondente a Custom string pattern #59.Especifica o caractere delimitador.
-
StartingOffsets
– String UTF-8 correspondente a Custom string pattern #59.A posição inicial no tópico do Kafka de onde ler os dados. Os valores possíveis são
"earliest"
ou"latest"
. O valor padrão é"latest"
. -
EndingOffsets
– String UTF-8 correspondente a Custom string pattern #59.O ponto final quando uma consulta em lote é encerrada. Os valores possíveis são
"latest"
ou uma string JSON que especifica um deslocamento final para cadaTopicPartition
. -
PollTimeoutMs
: número (inteiro longo), no máximo None (Nenhum).O tempo limite em milissegundos para sondar dados do Kafka em executores de trabalho do Spark. O valor padrão é
512
. -
NumRetries
– Número (inteiro), não mais do que None (Nenhum).O número de novas tentativas antes de falhar em obter os deslocamentos do Kafka. O valor padrão é
3
. -
RetryIntervalMs
: número (inteiro longo), no máximo None (Nenhum).O tempo em milissegundos a se esperar antes de tentar novamente buscar os deslocamentos do Kafka. O valor padrão é
10
. -
MaxOffsetsPerTrigger
: número (inteiro longo), no máximo None (Nenhum).O limite de taxa no número máximo de deslocamentos que são processados por intervalo do acionador. O número total especificado de deslocamentos é dividido proporcionalmente entre
topicPartitions
de diferentes volumes. O valor padrão é nulo, o que significa que o consumidor lê todos os deslocamentos até o deslocamento mais recente conhecido. -
MinPartitions
– Número (inteiro), não mais do que None (Nenhum).O número mínimo desejado de partições a serem lidas do Kafka. O valor padrão é nulo, o que significa que o número de partições do Spark é igual ao número de partições do Kafka.
-
IncludeHeaders
– Booleano.Se cabeçalhos do Kafka devem ser incluídos. Quando a opção estiver definida como "true", a saída de dados conterá uma coluna adicional chamada "glue_streaming_kafka_headers" com o tipo
Array[Struct(key: String, value: String)]
. O valor padrão é “false”. Essa opção só está disponível no AWS Glue versão 3.0 ou posterior. -
AddRecordTimestamp
– String UTF-8 correspondente a Custom string pattern #59.Quando essa opção for definida como “true“, a saída de dados conterá uma coluna adicional denominada "__src_timestamp" que indica a hora que o registro correspondente é recebido pelo tópico. O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.
-
EmitConsumerLagMetrics
– String UTF-8 correspondente a Custom string pattern #59.Quando essa opção for definida como "true", para cada lote, serão emitidas métricas durante o período entre a hora que o registro mais antigo é recebido pelo tópico e a hora que ele chega ao AWS Glue. O nome da métrica é "glue.driver.streaming.maxConsumerLagInMs". O valor padrão é "false". Essa opção é compatível com o AWS Glue versão 4.0 ou posterior.
-
StartingTimestamp
– String UTF-8.O timestamp do registro no tópico do Kafka para começar a ler os dados. Os valores possíveis são uma string de timestamp no formato UTC no padrão
yyyy-mm-ddTHH:MM:SSZ
(onde Z representa um desvio do fuso horário UTC com +/-). Por exemplo: "2023-04-04T08:00:00+08:00").Somente um de
StartingTimestamp
ouStartingOffsets
deve ser definido.
Estrutura RedshiftSource
Especifica um datastore do Amazon Redshift.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore do Amazon Redshift.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A tabela do banco de dados da qual a leitura será feita.
-
RedshiftTmpDir
– String UTF-8 correspondente a Custom string pattern #59.O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.
-
TmpDirIAMRole
– String UTF-8 correspondente a Custom string pattern #59.A função do IAM com permissões.
Estrutura AmazonRedshiftSource
Especifica uma fonte do Amazon Redshift.
Campos
-
Name
– String UTF-8 correspondente a Custom string pattern #61.O nome da fonte do Amazon Redshift.
-
Data
– Um objeto AmazonRedshiftNodeData.Especifica os dados do nó da fonte do Amazon Reshift.
Estrutura AmazonRedshiftNodeData
Especifica um nó do Amazon Redshift.
Campos
-
AccessType
– String UTF-8 correspondente a Custom string pattern #58.O tipo de acesso para a conexão do Redshift. Pode ser uma conexão direta ou conexões de catálogo.
-
SourceType
– String UTF-8 correspondente a Custom string pattern #58.O tipo de origem para especificar se uma determinada tabela é a fonte ou uma consulta personalizada.
-
Connection
– Um objeto Opção.A conexão do AWS Glue com o cluster do Redshift.
-
Schema
– Um objeto Opção.O nome do esquema do Redshift ao trabalhar com uma conexão direta.
-
Table
– Um objeto Opção.O nome da tabela do Redshift ao trabalhar com uma conexão direta.
-
CatalogDatabase
– Um objeto Opção.O nome do banco de dados do catálogo de dados do AWS Glue ao trabalhar com um catálogo de dados.
-
CatalogTable
– Um objeto Opção.O nome da tabela do catálogo de dados do AWS Glue ao trabalhar com um catálogo de dados.
-
CatalogRedshiftSchema
– String UTF-8.O nome do esquema do Redshift ao trabalhar com um catálogo de dados.
-
CatalogRedshiftTable
– String UTF-8.A tabela do banco de dados da qual a leitura será feita.
-
TempDir
– String UTF-8 correspondente a Custom string pattern #59.O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.
-
IamRole
– Um objeto Opção.Opcional. O nome do perfil usado ao conectar com o S3. O perfil do IAM, quando deixado em branco, assumirá como padrão o perfil no trabalho.
-
AdvancedOptions
– Uma matriz de objetos AmazonRedshiftAdvancedOption.Valores opcionais ao se conectar ao cluster do Redshift.
-
SampleQuery
– String UTF-8.O SQL usado para buscar os dados de uma fonte do Redshift quando o SourceType é "consulta".
-
PreAction
– String UTF-8.O SQL usado antes de um MERGE ou APPEND com upsert ser executado.
-
PostAction
– String UTF-8.O SQL usado antes de um MERGE ou APPEND com upsert ser executado.
-
Action
– String UTF-8.Especifica como a gravação em um cluster do Redshift ocorrerá.
-
TablePrefix
– String UTF-8 correspondente a Custom string pattern #58.Especifica o prefixo de uma tabela.
-
Upsert
– Booleano.A ação usada no Redshift vai para o coletor ao fazer um APPEND.
-
MergeAction
– String UTF-8 correspondente a Custom string pattern #58.A ação usada para determinar como um MERGE em um coletor do Redshift será tratado.
-
MergeWhenMatched
– String UTF-8 correspondente a Custom string pattern #58.A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente corresponder a um novo registro.
-
MergeWhenNotMatched
– String UTF-8 correspondente a Custom string pattern #58.A ação usada para determinar como um MERGE em um coletor do Redshift será tratado quando um registro existente não corresponder a um novo registro.
-
MergeClause
– String UTF-8.O SQL usado em uma mesclagem personalizada para lidar com registros correspondentes.
-
CrawlerConnection
– String UTF-8.Especifica o nome da conexão associada à tabela do catálogo usada.
-
TableSchema
– Uma matriz de objetos Opção.A matriz de saída do esquema para um determinado nó.
-
StagingTable
– String UTF-8.O nome da tabela de preparação temporária usada ao fazer um MERGE ou APPEND com upsert.
-
SelectedColumns
– Uma matriz de objetos Opção.A lista de nomes de colunas usada para determinar um registro correspondente ao fazer MERGE ou APPEND com upsert.
Estrutura AmazonRedshiftAdvancedOption
Especifica um valor opcional ao se conectar ao cluster do Redshift.
Campos
-
Key
– String UTF-8.A chave para a opção de conexão adicional.
-
Value
– String UTF-8.O valor para a opção de conexão adicional.
Estrutura Option
Especifica um valor de opção.
Campos
-
Value
– String UTF-8 correspondente a Custom string pattern #59.Especifica o valor da opção.
-
Label
– String UTF-8 correspondente a Custom string pattern #59.Especifica o rótulo da opção.
-
Description
– String UTF-8 correspondente a Custom string pattern #59.Especifica a descrição dae opção.
Estrutura S3CatalogSource
Especifica um datastore do Amazon S3 no catálogo de dados do.AWS Glue
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A tabela do banco de dados da qual a leitura será feita.
-
PartitionPredicate
– String UTF-8 correspondente a Custom string pattern #59.As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como
""
, vazio por padrão. -
AdditionalOptions
– Um objeto S3SourceAdditionalOptions.Especifica opções de conexão adicionais.
Estrutura S3SourceAdditionalOptions
Especifica opções de conexão adicionais para o datastore do Amazon S3.
Campos
-
BoundedSize
– Número (extenso).Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.
-
BoundedFiles
– Número (extenso).Define o limite superior para o número alvo de arquivos que serão processados.
Estrutura S3CsvSource
Especifica um datastore CSV (valores separados por comando) armazenado no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.
-
CompressionType
: string UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
Exclusions
– Uma matriz de strings UTF-8.Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.
-
GroupSize
– String UTF-8 correspondente a Custom string pattern #59.O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada,
"groupFiles"
deve ser definido como"inPartition"
para poder entrar em vigor. -
GroupFiles
– String UTF-8 correspondente a Custom string pattern #59.O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como
"none"
. -
Recurse
– Booleano.Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.
-
MaxBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.
-
MaxFilesInBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.
-
AdditionalOptions
– Um objeto S3DirectSourceAdditionalOptions.Especifica opções de conexão adicionais.
-
Separator
– obrigatório: string UTF-8 (valores válidos:comma="COMMA"
|ctrla="CTRLA"
|pipe="PIPE"
|semicolon="SEMICOLON"
|tab="TAB"
).Especifica o caractere delimitador. O padrão é uma vírgula: ",", mas qualquer outro caractere pode ser especificado.
-
Escaper
– String UTF-8 correspondente a Custom string pattern #59.Especifica um caractere a ser usado para escape. Essa opção é usada somente ao ler arquivos CSV. O valor padrão é
none
. Se ativado, o caractere que imediatamente segue é usado no estado em que se encontram, exceto para um pequeno conjunto de escapes conhecidos (\n
,\r
,\t
e\0
). -
QuoteChar
: obrigatório: string UTF-8 (valores válidos:quote="QUOTE"
|quillemet="QUILLEMET"
|single_quote="SINGLE_QUOTE"
|disabled="DISABLED"
).Especifica o caractere a ser usado para aspas. O padrão é aspas duplas:
'"'
. Defina como-1
para desativar as aspas por completo. -
Multiline
– Booleano.Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é
False
, que permite uma divisão de arquivos mais radical durante a análise. -
WithHeader
– Booleano.Um valor booleano que especifica se é necessário tratar a primeira linha como um cabeçalho. O valor padrão é
False
. -
WriteHeader
– Booleano.Um valor booleano que especifica se é necessário escrever o cabeçalho na saída. O valor padrão é
True
. -
SkipFirst
– Booleano.Um valor booleano que especifica se é necessário ignorar a primeira linha de dados. O valor padrão é
False
. -
OptimizePerformance
– Booleano.Um valor booleano que especifica se deve usar o leitor SIMD para CSV avançado junto com formatos de memória colunar baseados no Apache Arrow. Disponível somente no AWS Glue versão 3.0.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte CSV do S3.
Estrutura DirectJDBCSource
Especifica a conexão direta da fonte JDBC.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da conexão da fonte JDBC.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O banco de dados da conexão da fonte JDBC.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A tabela da conexão da fonte JDBC.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da conexão da fonte JDBC.
-
ConnectionType
– obrigatório: string UTF-8 (valores válidos:sqlserver
|mysql
|oracle
|postgresql
|redshift
).O tipo de conexão da fonte JDBC.
-
RedshiftTmpDir
– String UTF-8 correspondente a Custom string pattern #59.O diretório temporário da fonte JDBC do Redshift.
Estrutura S3DirectSourceAdditionalOptions
Especifica opções de conexão adicionais para o datastore do Amazon S3.
Campos
-
BoundedSize
– Número (extenso).Define o limite superior para o tamanho de destino do conjunto de dados em bytes que serão processados.
-
BoundedFiles
– Número (extenso).Define o limite superior para o número alvo de arquivos que serão processados.
-
EnableSamplePath
– Booleano.Define a opção para ativar um caminho de exemplo.
-
SamplePath
– String UTF-8 correspondente a Custom string pattern #59.Se ativado, especifica o caminho de exemplo.
Estrutura S3JsonSource
Especifica um datastore JSON armazenado no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.
-
CompressionType
: string UTF-8 (valores válidos:gzip="GZIP"
|bzip2="BZIP2"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
Exclusions
– Uma matriz de strings UTF-8.Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.
-
GroupSize
– String UTF-8 correspondente a Custom string pattern #59.O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada,
"groupFiles"
deve ser definido como"inPartition"
para poder entrar em vigor. -
GroupFiles
– String UTF-8 correspondente a Custom string pattern #59.O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como
"none"
. -
Recurse
– Booleano.Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.
-
MaxBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.
-
MaxFilesInBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.
-
AdditionalOptions
– Um objeto S3DirectSourceAdditionalOptions.Especifica opções de conexão adicionais.
-
JsonPath
– String UTF-8 correspondente a Custom string pattern #59.Uma string JsonPath que define os dados JSON.
-
Multiline
– Booleano.Um valor booleano que especifica se um único registro pode abranger várias linhas. Isso pode ocorrer quando um campo contém um caractere de nova linha entre aspas. Você deve definir essa opção como True (Verdadeira) se qualquer registro ocupar várias linhas. O valor padrão é
False
, que permite uma divisão de arquivos mais radical durante a análise. -
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte JSON do S3.
Estrutura S3ParquetSource
Especifica um datastore do Apache Parquet armazenado no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.
-
CompressionType
– String UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
Exclusions
– Uma matriz de strings UTF-8.Uma string contendo uma lista JSON de padrões glob a excluir estilo Unix. Por exemplo, "[\"**.pdf\"]" exclui todos os arquivos PDF.
-
GroupSize
– String UTF-8 correspondente a Custom string pattern #59.O tamanho do grupo de destino em bytes. O padrão é calculado com base no tamanho de dados de entrada e o tamanho de seu cluster. Quando há menos de 50.000 arquivos de entrada,
"groupFiles"
deve ser definido como"inPartition"
para poder entrar em vigor. -
GroupFiles
– String UTF-8 correspondente a Custom string pattern #59.O agrupamento de arquivos é ativado por padrão quando a entrada contiver mais de 50.000 arquivos. Para habilitar o agrupamento com menos de 50.000 arquivos, defina esse parâmetro como "inPartition". Para desabilitar o agrupamento quando houver mais de 50.000 arquivos, defina esse parâmetro como
"none"
. -
Recurse
– Booleano.Se definido como verdadeiro, recursivamente lê arquivos em todos os subdiretórios de acordo com os caminhos especificados.
-
MaxBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção controla a duração, em milissegundos, após a qual a listagem do s3 provavelmente será consistente. Os arquivos com carimbos de data e hora de modificação que estão dentro dos últimos maxBand milissegundos são rastreados principalmente ao usar JobBookmarks para considerar a consistência final do Amazon S3. A maioria dos usuários não precisa definir essa opção. O valor padrão é 900.000 milissegundos, ou 15 minutos.
-
MaxFilesInBand
– Número (inteiro), não mais do que None (Nenhum).Esta opção especifica o número máximo de arquivos para salvar nos últimos maxBand segundos. Se esse número for excedido, os arquivos extras são ignorados e apenas processados na próxima execução do trabalho.
-
AdditionalOptions
– Um objeto S3DirectSourceAdditionalOptions.Especifica opções de conexão adicionais.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte Parquet do S3.
Estrutura S3DeltaSource
Especifica uma fonte de dados do Delta Lake armazenada no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte do Delta Lake.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.
-
AdditionalDeltaOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
AdditionalOptions
– Um objeto S3DirectSourceAdditionalOptions.Especifica opções adicionais para o conector.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do Delta Lake.
Estrutura S3CatalogDeltaSource
Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue. A fonte de dados deve estar armazenada no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados do Delta Lake.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
AdditionalDeltaOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do Delta Lake.
Estrutura CatalogDeltaSource
Especifica uma fonte de dados do Delta Lake que é registrada no catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados do Delta Lake.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
AdditionalDeltaOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte do Delta Lake.
Estrutura S3HudiSource
Especifica uma fonte de dados Hudi armazenada no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte Hudi.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Uma lista de caminhos do Amazon S3 dos quais fazer a leitura.
-
AdditionalHudiOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
AdditionalOptions
– Um objeto S3DirectSourceAdditionalOptions.Especifica opções adicionais para o conector.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte Hudi.
Estrutura S3CatalogHudiSource
Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog. A fonte de dados Hudi deve ser armazenada no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados Hudi.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
AdditionalHudiOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte Hudi.
Estrutura CatalogHudiSource
Especifica uma fonte de dados Hudi registrada no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados Hudi.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
-
AdditionalHudiOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções de conexão adicionais.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a fonte Hudi.
Estrutura DynamoDBCatalogSource
Especifica uma fonte de dados do DynamoDB no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura RelationalCatalogSource
Especifica uma fonte de dados de banco de dados relacional no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados da qual a leitura será feita.
Estrutura JDBCConnectorTarget
Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da conexão associada ao conector.
-
ConnectionTable
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no destino dos dados.
-
ConnectorName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de um conector que será usado.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O tipo de conexão, como marketplace.jdbc ou custom.jdbc, designando uma conexão com um destino de dados JDBC.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Opções de conexão adicionais para o conector.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para o destino do JDBC.
Estrutura SparkConnectorTarget
Especifica um destino que usa um conector Apache Spark.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
ConnectionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de uma conexão para um conector do Apache Spark.
-
ConnectorName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome de um conector do Apache Spark.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O tipo de conexão, como marketplace.spark ou custom.spark, designando uma conexão com um datastore do Apache Spark.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Opções de conexão adicionais para o conector.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para o destino do Spark personalizado.
Estrutura BasicCatalogTarget
Especifica um destino que usa uma tabela do catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do seu destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.As chaves de partição usadas para distribuir dados em várias partições ou fragmentos com base em uma chave específica ou em um conjunto de chaves.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O banco de dados que contém a tabela que você deseja usar como destino. Esse banco de dados já deve existir no Data Catalog.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A tabela que define o esquema dos dados de saída. Essa tabela já deve existir no Data Catalog.
Estrutura MySQLCatalogTarget
Especifica um destino que usa o MySQL.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
Estrutura PostgreSQLCatalogTarget
Especifica um destino que usa o Postgres SQL.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
Estrutura OracleSQLCatalogTarget
Especifica um destino que usa o Oracle SQL.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
Estrutura MicrosoftSQLServerCatalogTarget
Especifica um destino que usa o Microsoft SQL.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
Estrutura RedshiftTarget
Especifica um destino que usa o Amazon Redshift.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
-
RedshiftTmpDir
– String UTF-8 correspondente a Custom string pattern #59.O caminho do Amazon S3 onde dados temporários podem ser preparados ao serem copiados do banco de dados.
-
TmpDirIAMRole
– String UTF-8 correspondente a Custom string pattern #59.A função do IAM com permissões.
-
UpsertRedshiftOptions
– Um objeto UpsertRedshiftTargetOptions.O conjunto de opções para configurar uma operação upsert ao gravar em um destino do Redshift.
Estrutura AmazonRedshiftTarget
Especifica um destino do Amazon Redshift.
Campos
-
Name
– String UTF-8 correspondente a Custom string pattern #61.O nome do destino do Amazon Redshift.
-
Data
– Um objeto AmazonRedshiftNodeData.Especifica os dados do nó de destino do Amazon Redshift.
-
Inputs
: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.Os nós que são entradas para o destino de dados.
Estrutura UpsertRedshiftTargetOptions
As opções para configurar uma operação upsert ao gravar em um destino do Redshift.
Campos
-
TableLocation
– String UTF-8 correspondente a Custom string pattern #59.A localização física da tabela do Redshift.
-
ConnectionName
– String UTF-8 correspondente a Custom string pattern #59.O nome da conexão a ser usada para gravar no Redshift.
-
UpsertKeys
– Uma matriz de strings UTF-8.As chaves usadas para determinar se uma atualização ou uma inserção será executada.
Estrutura S3CatalogTarget
Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
SchemaChangePolicy
– Um objeto CatalogSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura S3GlueParquetTarget
Especifica um destino de dados que grava no Amazon S3 no armazenamento colunar do Apache Parquet.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Um único caminho do Amazon S3 no qual gravar.
-
Compression
– String UTF-8 (valores válidos:snappy="SNAPPY"
|lzo="LZO"
|gzip="GZIP"
|uncompressed="UNCOMPRESSED"
|none="NONE"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
SchemaChangePolicy
– Um objeto DirectSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura CatalogSchemaChangePolicy
Uma política que especifica o comportamentos de atualização do crawler.
Campos
-
EnableUpdateCatalog
– Booleano.Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.
-
UpdateBehavior
: string UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).O comportamento de atualização quando o crawler encontra um esquema alterado.
Estrutura S3DirectTarget
Especifica um destino de dados que grava no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Um único caminho do Amazon S3 no qual gravar.
-
Compression
– String UTF-8 correspondente a Custom string pattern #59.Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
Format
: obrigatório: string UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica o formato de saída de dados para o destino.
-
SchemaChangePolicy
– Um objeto DirectSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura S3HudiCatalogTarget
Especifica um destino de dados que grava em uma fonte de dados Hudi no AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
AdditionalOptions
: obrigatório: uma matriz de mapa dos pares de chave-valor.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica as opções de conexão adicionais para o conector.
-
SchemaChangePolicy
– Um objeto CatalogSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura S3HudiDirectTarget
Especifica um destino que grava em uma fonte de dados Hudi no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O caminho do Amazon S3 da fonte de dados Hudi na qual gravar.
-
Compression
: obrigatório: string UTF-8 (valores válidos:gzip="GZIP"
|lzo="LZO"
|uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Format
: obrigatório: string UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica o formato de saída de dados para o destino.
-
AdditionalOptions
: obrigatório: uma matriz de mapa dos pares de chave-valor.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica as opções de conexão adicionais para o conector.
-
SchemaChangePolicy
– Um objeto DirectSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura S3DeltaCatalogTarget
Especifica um destino que grava em uma fonte de dados do Delta Lake no catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica as opções de conexão adicionais para o conector.
-
SchemaChangePolicy
– Um objeto CatalogSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura S3DeltaDirectTarget
Especifica um destino que grava em uma fonte de dados do Delta Lake no Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O caminho do Amazon S3 da fonte de dados do Delta Lake na qual gravar.
-
Compression
– Obrigatório: string UTF-8 (valores válidos:uncompressed="UNCOMPRESSED"
|snappy="SNAPPY"
).Especifica como os dados são compactados. Isso geralmente não é necessário se os dados tem uma extensão de arquivo padrão. Os possíveis valores são
"gzip"
e"bzip"
). -
Format
: obrigatório: string UTF-8 (valores válidos:json="JSON"
|csv="CSV"
|avro="AVRO"
|orc="ORC"
|parquet="PARQUET"
|hudi="HUDI"
|delta="DELTA"
).Especifica o formato de saída de dados para o destino.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica as opções de conexão adicionais para o conector.
-
SchemaChangePolicy
– Um objeto DirectSchemaChangePolicy.Uma política que especifica o comportamentos de atualização do crawler.
Estrutura DirectSchemaChangePolicy
Uma política que especifica o comportamentos de atualização do crawler.
Campos
-
EnableUpdateCatalog
– Booleano.Se comportamento de atualização especificado deve ser usado quando o crawler encontra um esquema alterado.
-
UpdateBehavior
: string UTF-8 (valores válidos:UPDATE_IN_DATABASE
|LOG
).O comportamento de atualização quando o crawler encontra um esquema alterado.
-
Table
– String UTF-8 correspondente a Custom string pattern #59.Especifica a tabela no banco de dados à qual a política de alteração de esquema se aplica.
-
Database
– String UTF-8 correspondente a Custom string pattern #59.Especifica o banco de dados no qual a política de alteração de esquema se aplica.
Estrutura ApplyMapping
Especifica uma transformação que mapeia chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados. Você pode renomear chaves, modificar os tipos de dados para chaves e escolher quais chaves remover do conjunto de dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Mapping
– Obrigatório: uma matriz de objetos Mapeamento.Especifica o mapeamento das chaves de propriedade de dados na fonte dos dados para chaves de propriedade de dados no destino dos dados.
Estrutura Mapping
Especifica o mapeamento de chaves de propriedade de dados.
Campos
-
ToKey
– String UTF-8 correspondente a Custom string pattern #59.Após o mapeamento de aplicação, qual deve ser o nome da coluna. Pode ser igual a
FromPath
. -
FromPath
– Uma matriz de strings UTF-8.A tabela ou coluna a ser modificada.
-
FromType
– String UTF-8 correspondente a Custom string pattern #59.O tipo dos dados a serem modificados.
-
ToType
– String UTF-8 correspondente a Custom string pattern #59.O tipo de dados para o qual os dados devem ser modificados.
-
Dropped
– Booleano.Se verdadeiro, a coluna será removida.
-
Children
– Uma matriz de objetos Mapeamento.Aplicável somente a estruturas de dados aninhadas. Se você quiser alterar a estrutura pai, mas também um de seus filhos, você pode preencher esta estrutura de dados. É também
Mapping
, mas seuFromPath
será oFromPath
dos pais mais oFromPath
dessa estrutura.Para a parte dos filhos, suponha que você tenha a estrutura:
{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
É possível especificar um
Mapping
parecido com:{ "FromPath": "OuterStructure", "ToKey": "OuterStructure", "ToType": "Struct", "Dropped": false, "Chidlren": [{ "FromPath": "inner", "ToKey": "inner", "ToType": "Double", "Dropped": false, }] }
Estrutura SelectFields
Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja manter.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Um caminho JSON para uma variável na estrutura de dados.
Estrutura DropFields
Especifica uma transformação que escolhe as chaves de propriedade de dados que você deseja descartar.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Um caminho JSON para uma variável na estrutura de dados.
Estrutura RenameField
Especifica uma transformação que renomeia uma única chave de propriedade de dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
SourcePath
: obrigatório: uma matriz de strings UTF-8.Um caminho JSON para uma variável na estrutura de dados para os dados da fonte.
-
TargetPath
: obrigatório: uma matriz de strings UTF-8.Um caminho JSON para uma variável na estrutura de dados para os dados do destino.
Estrutura Spigot
Especifica uma transformação que grava amostras dos dados em um bucket do Amazon S3.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Um caminho no Amazon S3 onde a transformação grava um subconjunto de registros do conjunto de dados em um arquivo JSON, em um bucket do Amazon S3.
-
Topk
: número (inteiro), não mais do que 100.Especifica vários registros a serem gravados a partir do início do conjunto de dados.
-
Prob
: número (double), no máximo 1.A probabilidade (um valor decimal com um valor máximo de 1) de escolher qualquer registro. Um valor de 1 indica que cada linha lida do conjunto de dados deve ser incluída na saída de amostra.
Estrutura Join
Especifica uma transformação que une dois conjuntos de dados em um só, usando uma frase de comparação nas chaves de propriedade de dados especificadas. Você pode usar junção inner (interna), outer (externa), left (à esquerda), right (à direita), left semi (semi à esquerda) e left anti (anti à esquerda).
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.As entradas de dados identificadas por seus nomes de nós.
-
JoinType
– obrigatório: string UTF-8 (valores válidos:equijoin="EQUIJOIN"
|left="LEFT"
|right="RIGHT"
|outer="OUTER"
|leftsemi="LEFT_SEMI"
|leftanti="LEFT_ANTI"
).Especifica o tipo de junção a ser executada nos conjuntos de dados.
-
Columns
: obrigatório: uma matriz de objetos JoinColumn, não menos de 2 ou mais de 2 estruturas.Uma lista das duas colunas a serem unidas.
Estrutura JoinColumn
Especifica uma coluna a ser unida.
Campos
-
From
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A coluna a ser unida.
-
Keys
: obrigatório: uma matriz de strings UTF-8.A chave da coluna a ser unida.
Estrutura SplitFields
Especifica uma transformação que divide chaves de propriedade de dados em dois DynamicFrames
. A saída é uma coleção de DynamicFrames
: um com chaves de propriedade de dados selecionadas e outro com as chaves de propriedade de dados restantes.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Paths
: obrigatório: uma matriz de strings UTF-8.Um caminho JSON para uma variável na estrutura de dados.
Estrutura SelectFromCollection
Especifica uma transformação que escolhe um DynamicFrame
de uma coleção de DynamicFrames
. A saída é o DynamicFrame
selecionado.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Index
– Obrigatório: número (inteiro), não mais do que Nenhum.O índice para o DynamicFrame a ser selecionado.
Estrutura FillMissingValues
Especifica uma transformação que localiza registros no conjunto de dados que tenham valores ausentes e adiciona um novo campo com um valor determinado por imputação. O conjunto de dados de entrada é usado para treinar o modelo de machine learning que determina qual deve ser o valor ausente.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
ImputedPath
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados imputado.
-
FilledPath
– String UTF-8 correspondente a Custom string pattern #59.Um caminho JSON para uma variável na estrutura de dados para o conjunto de dados preenchido.
Estrutura Filter
Especifica uma transformação que divide um conjunto de dados em dois, com base em uma condição de filtro.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
LogicalOperator
– Obrigatório: string UTF-8 (valores válidos:AND
|OR
).O operador costumava filtrar linhas comparando o valor da chave com um valor especificado.
-
Filters
– Obrigatório: uma matriz de objetos FilterExpression.Especifica uma expressão de filtro.
Estrutura FilterExpression
Especifica uma expressão de filtro.
Campos
-
Operation
: obrigatório: string UTF-8 (valores válidos:EQ
|LT
|GT
|LTE
|GTE
|REGEX
|ISNULL
).O tipo de operação a ser executada na expressão.
-
Negated
– Booleano.Se a expressão deve ser negada.
-
Values
– Obrigatório: uma matriz de objetos FilterValue.Uma lista de valores de filtro.
Estrutura FilterValue
Representa uma única entrada na lista de valores de uma FilterExpression
.
Campos
-
Type
– Obrigatório: string UTF-8 (valores válidos:COLUMNEXTRACTED
|CONSTANT
).O tipo de valor do filtro.
-
Value
: obrigatório: uma matriz de strings UTF-8.O valor a ser associado.
Estrutura CustomCode
Especifica uma transformação que usa código personalizado que você fornece para executar a transformação de dados. A saída é uma coleção de DynamicFrames.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
– Obrigatório: uma matriz de strings UTF-8, pelo menos 1 string.As entradas de dados identificadas por seus nomes de nós.
-
Code
– Obrigatório: string UTF-8, correspondente a Custom string pattern #52.O código personalizado usado para executar a transformação de dados.
-
ClassName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome definido para a classe de nó de código personalizado.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a transformação de código personalizada.
Estrutura SparkSQL
Especifica uma transformação em que você insere uma consulta de SQL usando a sintaxe do Spark SQL para transformar os dados. A saída é um único DynamicFrame
.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
– Obrigatório: uma matriz de strings UTF-8, pelo menos 1 string.As entradas de dados identificadas por seus nomes de nós. Você pode associar um nome de tabela a cada nó de entrada a ser usado na consulta SQL. O nome escolhido deve atender às restrições de nomenclatura do Spark SQL.
-
SqlQuery
– Obrigatório: string UTF-8, correspondente a Custom string pattern #60.Uma consulta SQL que deve usar a sintaxe do Spark SQL e retornar um único conjunto de dados.
-
SqlAliases
– Obrigatório: uma matriz de objetos SqlAlias.Uma lista de aliases. Um alias permite especificar qual nome usar no SQL para uma determinada entrada. Por exemplo, você tem uma fonte de dados chamada "MyDataSource". Se você especificar
From
como MyDataSource, eAlias
como SqlName, então, em seu SQL, você pode fazer:select * from SqlName
e isso obtém dados de MyDataSource.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a transformação do SparkSQL.
Estrutura SqlAlias
Representa uma única entrada na lista de valores de SqlAliases
.
Campos
-
From
– Obrigatório: string UTF-8, correspondente a Custom string pattern #58.Uma tabela ou uma coluna em uma tabela.
-
Alias
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Um nome temporário dado a uma tabela ou a uma coluna em uma tabela.
Estrutura DropNullFields
Especifica uma transformação que remove colunas do conjunto de dados se todos os valores na coluna forem 'null'. Por padrão, o AWS Glue Studio reconhecerá objetos nulos, mas alguns valores, como strings vazias, strings que sejam "nulas", inteiros -1 ou outros espaços reservados, como zeros, não são automaticamente reconhecidos como nulos.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
NullCheckBoxList
– Um objeto NullCheckBoxList.Uma estrutura que representa se determinados valores são reconhecidos como valores nulos para remoção.
-
NullTextList
– Uma matriz de NullValueField objetos, não mais de 50 estruturas.Uma estrutura que especifica uma lista de estruturas NullValueField que representam um valor nulo personalizado, como zero ou outro valor sendo usado como um espaço reservado nulo exclusivo para o conjunto de dados.
A transformação
DropNullFields
remove valores nulos personalizados somente se o valor do espaço reservado nulo e o tipo de dados corresponderem aos dados.
Estrutura NullCheckBoxList
Representa se determinados valores são reconhecidos como valores nulos para remoção.
Campos
-
IsEmpty
– Booleano.Especifica que uma string vazia é considerada como um valor nulo.
-
IsNullString
– Booleano.Especifica que um valor com a palavra "null" é considerado como um valor nulo.
-
IsNegOne
– Booleano.Especifica que um valor inteiro de -1 é considerado como um valor nulo.
Estrutura NullValueField
Representa um valor nulo personalizado, como zeros ou outros valores sendo usados como um espaço reservado para nulo exclusivo para o conjunto de dados.
Campos
-
Value
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O valor do espaço reservado para nulo.
-
Datatype
– Obrigatório: um objeto DataType.O tipo de dados do valor.
Estrutura Datatype
Uma estrutura que representa o tipo de dados do valor.
Campos
-
Id
– Obrigatório: string UTF-8, correspondente a Custom string pattern #58.O tipo de dados do valor.
-
Label
– Obrigatório: string UTF-8, correspondente a Custom string pattern #58.Um rótulo atribuído ao tipo de dados.
Estrutura Merge
Especifica uma transformação que mescla um DynamicFrame
com um DynamicFrame
de preparação, de acordo com as chaves primárias especificadas para identificar registros. Registros duplicados (com as mesmas chaves primárias) não são eliminados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.As entradas de dados identificadas por seus nomes de nós.
-
Source
– Obrigatório: string UTF-8, correspondente a Custom string pattern #58.O
DynamicFrame
da fonte que será mesclado com umDynamicFrame
de preparação. -
PrimaryKeys
: obrigatório: uma matriz de strings UTF-8.A lista de campos de chave primária para corresponder aos registros da fonte e quadros dinâmicos de preparação.
Estrutura Union
Especifica uma transformação que combina as linhas de dois ou mais conjuntos de dados em um único resultado.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 2 ou mais de 2 strings.A entrada do ID do nó na transformação.
-
UnionType
– Obrigatório: string UTF-8 (valores válidos:ALL
|DISTINCT
).Indica o tipo de transformação Union.
Especifica
ALL
para unir todas as linhas de fontes de dados ao DynamicFrame resultante. A união resultante não remove linhas duplicadas.Especifica
DISTINCT
para remover linhas duplicadas no DynamicFrame resultante.
Estrutura PIIDetection
Especifica uma transformação que identifica, remove ou mascara dados de PII.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.A entrada do ID do nó na transformação.
-
PiiType
: obrigatório: string UTF-8 (valores válidos:RowAudit
|RowMasking
|ColumnAudit
|ColumnMasking
).Indica o tipo de transformação PIIDetection.
-
EntityTypesToDetect
: obrigatório: uma matriz de strings UTF-8.Indica os tipos de entidades que a transformação PIIDetection identificará como dados de PII.
As entidades do tipo PII incluem: PERSON_NAME, DATE, USA_SNN, EMAIL, USA_ITIN, USA_PASSPORT_NUMBER, PHONE_NUMBER, BANK_ACCOUNT, IP_ADDRESS, MAC_ADDRESS, USA_CPT_CODE, USA_HCPCS_CODE, USA_NATIONAL_DRUG_CODE, USA_MEDICARE_BENEFICIARY_IDENTIFIER, USA_HEALTH_INSURANCE_CLAIM_NUMBER,CREDIT_CARD,USA_NATIONAL_PROVIDER_IDENTIFIER,USA_DEA_NUMBER,USA_DRIVING_LICENSE
-
OutputColumnName
– String UTF-8 correspondente a Custom string pattern #59.Indica o nome da coluna de saída que conterá qualquer tipo de entidade detectado nessa linha.
-
SampleFraction
: número (double), no máximo 1.Indica a fração dos dados a serem amostrados ao verificar entidades de PII.
-
ThresholdFraction
: número (double), no máximo 1.Indica a fração dos dados que devem ser atendidos para que uma coluna seja identificada como dados de PII.
-
MaskValue
: string UTF-8, com não mais que 256 bytes de comprimento, correspondente a Custom string pattern #56.Indica o valor que substituirá a entidade detectada.
Estrutura Aggregate
Especifica uma transformação que agrupa linhas por campos escolhidos e calcula o valor agregado por função especificada.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Especifica os campos e linhas a serem usados como entradas para a transformação agregada.
-
Groups
: obrigatório: uma matriz de strings UTF-8.Especifica os campos a serem agrupados.
-
Aggs
: obrigatório: uma matriz de objetos AggregateOperation, com, no mínimo, 1 e, no máximo, 30 estruturas.Especifica as funções agregadas a serem executadas em campos especificados.
Estrutura DropDuplicates
Especifica uma transformação que remove linhas de dados repetidos de um conjunto de dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó de transformação.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas de dados identificadas por seus nomes de nós.
-
Columns
– Uma matriz de strings UTF-8.O nome das colunas a serem mescladas ou removidas caso sejam repetidas.
Estrutura GovernedCatalogTarget
Especifica um destino de dados que grava no Amazon S3 usando o catálogo de dados do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino de dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são entradas para o destino de dados.
-
PartitionKeys
– Uma matriz de strings UTF-8.Especifica o particionamento nativo usando uma sequência de chaves.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome da tabela no banco de dados na qual gravar.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O nome do banco de dados no qual gravar.
-
SchemaChangePolicy
– Um objeto CatalogSchemaChangePolicy.Uma política que especifica o comportamento do catálogo governado.
Estrutura GovernedCatalogSource
Especifica o datastore no AWS Glue Data Catalog.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do datastore.
-
Database
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O banco de dados do qual a leitura será feita.
-
Table
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A tabela do banco de dados da qual a leitura será feita.
-
PartitionPredicate
– String UTF-8 correspondente a Custom string pattern #59.As partições que satisfazem a esse predicado são excluídas. Os arquivos dentro do período de retenção nessas partições não são excluídos. Definido como
""
, vazio por padrão. -
AdditionalOptions
– Um objeto S3SourceAdditionalOptions.Especifica opções de conexão adicionais.
Estrutura AggregateOperation
Especifica o conjunto de parâmetros necessários para realizar agregação na transformação dinâmica.
Campos
-
Column
: obrigatório: uma matriz de strings UTF-8.Especifica a coluna no conjunto de dados em que a função de agregação será aplicada.
-
AggFunc
: obrigatório: string UTF-8 (valores válidos:avg
|countDistinct
|count
|first
|last
|kurtosis
|max
|min
|skewness
|stddev_samp
|stddev_pop
|sum
|sumDistinct
|var_samp
|var_pop
).Especifica a função de agregação a ser aplicada.
As possíveis funções de agregação incluem: avg countDistinct, count, first, last, kurtosis, max, min, skewness, stddev_samp, stddev_pop, sum, sumDistinct, var_samp, var_pop
Estrutura GlueSchema
Especifica um esquema definido pelo usuário quando um esquema não pode ser determinado pelo AWS Glue.
Campos
-
Columns
– Uma matriz de objetos GlueStudioSchemaColumn.Especifica as definições de coluna que compõem um esquema do AWS Glue.
Estrutura GlueStudioSchemaColumn
Especifica uma única coluna em uma definição de esquema do AWS Glue.
Campos
-
Name
: – Obrigatório: string UTF-8 com não mais do que 1024 bytes de comprimento, correspondente a Single-line string pattern.O nome da coluna no esquema do AWS Glue Studio.
-
Type
– String UTF-8 com comprimento não superior a 131.072 bytes, correspondente a Single-line string pattern.O tipo de hive para esta coluna no esquema do AWS Glue Studio.
Estrutura GlueStudioColumn
Especifica uma única coluna no AWS Glue Studio.
Campos
-
Key
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.A chave da coluna no AWS Glue Studio.
-
FullPath
: obrigatório: uma matriz de strings UTF-8.O URL completo da coluna no AWS Glue Studio.
-
Type
– Obrigatório: string UTF-8 (valores válidos:array="ARRAY"
|bigint="BIGINT"
|bigint array="BIGINT_ARRAY"
|binary="BINARY"
|binary array="BINARY_ARRAY"
|boolean="BOOLEAN"
|boolean array="BOOLEAN_ARRAY"
|byte="BYTE"
|byte array="BYTE_ARRAY"
|char="CHAR"
|char array="CHAR_ARRAY"
|choice="CHOICE"
|choice array="CHOICE_ARRAY"
|date="DATE"
|date array="DATE_ARRAY"
|decimal="DECIMAL"
|decimal array="DECIMAL_ARRAY"
|double="DOUBLE"
|double array="DOUBLE_ARRAY"
|enum="ENUM"
|enum array="ENUM_ARRAY"
|float="FLOAT"
|float array="FLOAT_ARRAY"
|int="INT"
|int array="INT_ARRAY"
|interval="INTERVAL"
|interval array="INTERVAL_ARRAY"
|long="LONG"
|long array="LONG_ARRAY"
|object="OBJECT"
|short="SHORT"
|short array="SHORT_ARRAY"
|smallint="SMALLINT"
|smallint array="SMALLINT_ARRAY"
|string="STRING"
|string array="STRING_ARRAY"
|timestamp="TIMESTAMP"
|timestamp array="TIMESTAMP_ARRAY"
|tinyint="TINYINT"
|tinyint array="TINYINT_ARRAY"
|varchar="VARCHAR"
|varchar array="VARCHAR_ARRAY"
|null="NULL"
|unknown="UNKNOWN"
|unknown array="UNKNOWN_ARRAY"
).O tipo da coluna no AWS Glue Studio.
-
Children
: uma matriz de estruturas.Os itens secundários da coluna principal no AWS Glue Studio.
Estrutura DynamicTransform
Especifica o conjunto de parâmetros necessários para realizar a transformação dinâmica.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Especifica o nome da transformação dinâmica.
-
TransformName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Especifica o nome da transformação dinâmica como aparece no editor visual do AWS Glue Studio.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Especifica as entradas necessárias para a transformação dinâmica.
-
Parameters
– Uma matriz de objetos TransformConfigParameter.Especifica os parâmetros da transformação dinâmica.
-
FunctionName
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Especifica o nome da função da transformação dinâmica.
-
Path
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Especifica o caminho da origem da transformação dinâmica e dos arquivos de configuração.
-
Version
– String UTF-8 correspondente a Custom string pattern #59.Esse campo não é usado e será removido em uma versão futura.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para a transformação dinâmica.
Estrutura TransformConfigParameter
Especifica os parâmetros no arquivo de configuração da transformação dinâmica.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.Especifica o nome do parâmetro no arquivo de configuração da transformação dinâmica.
-
Type
: obrigatório: string UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica o tipo de parâmetro no arquivo de configuração da transformação dinâmica.
-
ValidationRule
– String UTF-8 correspondente a Custom string pattern #59.Especifica a regra de validação no arquivo de configuração da transformação dinâmica.
-
ValidationMessage
– String UTF-8 correspondente a Custom string pattern #59.Especifica a mensagem de validação no arquivo de configuração da transformação dinâmica.
-
Value
– Uma matriz de strings UTF-8.Especifica o valor do parâmetro no arquivo de configuração da transformação dinâmica.
-
ListType
– String UTF-8 (valores válidos:str="STR"
|int="INT"
|float="FLOAT"
|complex="COMPLEX"
|bool="BOOL"
|list="LIST"
|null="NULL"
).Especifica o tipo de lista do parâmetro no arquivo de configuração da transformação dinâmica.
-
IsOptional
– Booleano.Especifica se o parâmetro é opcional ou não no arquivo de configuração da transformação dinâmica.
Estrutura EvaluateDataQuality
Especifica os critérios da avaliação de qualidade dos dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da avaliação de qualidade dos dados.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.As entradas da avaliação de qualidade dos dados.
-
Ruleset
: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #57.O conjunto de regras para a avaliação de qualidade dos dados.
-
Output
: string UTF-8 (valores válidos:PrimaryInput
|EvaluationResults
).As resultado da avaliação de qualidade dos dados.
-
PublishingOptions
– Um objeto DQResultsPublishingOptions.Opções para configurar como os resultados são publicados.
-
StopJobOnFailureOptions
– Um objeto DQStopJobOnFailureOptions.Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.
Estrutura DQResultsPublishingOptions
Opções para configurar como os resultados da avaliação de qualidade dos dados são publicados.
Campos
-
EvaluationContext
– String UTF-8 correspondente a Custom string pattern #58.O contexto da avaliação.
-
ResultsS3Prefix
– String UTF-8 correspondente a Custom string pattern #59.O prefixo do Amazon S3 adicionado aos resultados.
-
CloudWatchMetricsEnabled
– Booleano.Habilitar métricas para os resultados de qualidade dos dados.
-
ResultsPublishingEnabled
– Booleano.Habilitar a publicação dos resultados de qualidade dos dados.
Estrutura DQStopJobOnFailureOptions
Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.
Campos
-
StopJobOnFailureTiming
: string UTF-8 (valores válidos:Immediate
|AfterDataLoad
).Quando interromper o trabalho se a avaliação de qualidade dos dados falhar. As opções são Immediate ou AfterDataLoad.
Estrutura EvaluateDataQualityMultiFrame
Especifica os critérios da avaliação de qualidade dos dados.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da avaliação de qualidade dos dados.
-
Inputs
– Obrigatório: uma matriz de strings UTF-8, pelo menos 1 string.As entradas da avaliação de qualidade dos dados. A primeira entrada nessa lista é a fonte de dados primária.
-
AdditionalDataSources
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #61.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Os aliases de todas as fontes de dados, exceto a primária.
-
Ruleset
: obrigatório: string UTF-8, não menos que 1 ou mais que 65.536 bytes de comprimento, correspondente ao Custom string pattern #57.O conjunto de regras para a avaliação de qualidade dos dados.
-
PublishingOptions
– Um objeto DQResultsPublishingOptions.Opções para configurar como os resultados são publicados.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 (valores válidos:
performanceTuning.caching="CacheOption"
|observations.scope="ObservationsOption"
).Cada valor é uma sequência de caracteres UTF-8.
Opções para configurar o comportamento do runtime da transformação.
-
StopJobOnFailureOptions
– Um objeto DQStopJobOnFailureOptions.Opções para configurar como o trabalho será interrompido se a avaliação de qualidade dos dados falhar.
Estrutura da fórmula
Um nó do AWS Glue Studio que usa uma fórmula do AWS Glue DataBrew em trabalhos do AWS Glue.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do nó do AWS Glue Studio.
-
Inputs
: obrigatório: uma matriz de strings UTF-8, não menos de 1 ou mais de 1 strings.Os nós que são inseridos no nó da fórmula, identificados por ID.
-
RecipeReference
– Um objeto RecipeReference.Uma referência à fórmula do DataBrew usada pelo nó.
-
RecipeSteps
– Uma matriz de objetos RecipeStep.Etapas de transformação usadas no nó da fórmula.
Estrutura SchemaReference
Uma referência a uma fórmula do AWS Glue DataBrew.
Campos
-
RecipeArn
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O ARN da fórmula do DataBrew.
-
RecipeVersion
- obrigatório: string UTF-8, com não menos do que 1 nem mais do que 16 bytes de comprimento.A RecipeVersion da fórmula do DataBrew.
Estrutura SnowflakeNodeData
Especifica a configuração dos nós do Snowflake no AWS Glue Studio
Campos
-
SourceType
– String UTF-8 correspondente a Custom string pattern #58.Especifica como os dados recuperados são especificados. Valores válidos:
"table"
,"query"
. -
Connection
– Um objeto Opção.Especifica uma conexão do catálogo de dados do AWS Glue com um endpoint do Snowflake.
-
Schema
– String UTF-8.Especifica um esquema de banco de dados do Snowflake para seu nó usar.
-
Table
– String UTF-8.Especifica uma tabela do Snowflake para seu nó usar.
-
Database
– String UTF-8.Especifica um banco de dados do Snowflake para seu nó usar.
-
TempDir
– String UTF-8 correspondente a Custom string pattern #59.Não utilizado no momento.
-
IamRole
– Um objeto Opção.Não utilizado no momento.
-
AdditionalOptions
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8 que corresponde a Custom string pattern #59.
Cada valor é uma string UTF-8 que corresponde a Custom string pattern #59.
Especifica opções adicionais passadas ao conector do Snowflake. Se as opções forem especificadas em outro lugar neste nó, isso terá precedência.
-
SampleQuery
– String UTF-8.Uma string SQL usada para recuperar dados com o tipo de fonte
query
. -
PreAction
– String UTF-8.Uma string SQL executada antes que o conector do Snowflake execute suas ações padrão.
-
PostAction
– String UTF-8.Uma string SQL executada depois que o conector do Snowflake executa suas ações padrão.
-
Action
– String UTF-8.Especifica a ação a ser realizada ao gravar em uma tabela com dados preexistentes. Valores válidos:
append
,merge
,truncate
,drop
. -
Upsert
– Booleano.Usado quando a ação é
append
. Especifica o comportamento da resolução quando uma linha já existe. Se verdadeiro, as linhas preexistentes serão atualizadas. Se falso, essas linhas serão inseridas. -
MergeAction
– String UTF-8 correspondente a Custom string pattern #58.Especifica uma ação de mesclagem. Valores válidos:
simple
,custom
. Se for simples, o comportamento de mesclagem será definido porMergeWhenMatched
eMergeWhenNotMatched
. Se for personalizado, será definido porMergeClause
. -
MergeWhenMatched
– String UTF-8 correspondente a Custom string pattern #58.Especifica como resolver registros que correspondam a dados preexistentes durante a mesclagem. Valores válidos:
update
,delete
. -
MergeWhenNotMatched
– String UTF-8 correspondente a Custom string pattern #58.Especifica como processar registros que não correspondem a dados preexistentes durante a mesclagem. Valores válidos:
insert
,none
. -
MergeClause
– String UTF-8.Uma instrução SQL que especifica um comportamento de mesclagem personalizado.
-
StagingTable
– String UTF-8.O nome de uma tabela de preparação usada ao executar
merge
ou fazer o upsert das açõesappend
. Os dados são gravados nessa tabela e, em seguida, movidos para atable
por uma pós-ação gerada. -
SelectedColumns
– Uma matriz de objetos Opção.Especifica as colunas combinadas para identificar um registro ao detectar correspondências para mesclagens e upserts. Uma lista de estruturas com as chaves
value
,label
edescription
. Cada estrutura descreve uma coluna. -
AutoPushdown
– Booleano.Especifica se o pushdown de consultas está habilitado. Se o pushdown estiver habilitado, quando uma consulta for executada no Spark, se for possível fazer pushdown de parte da consulta para o servidor do Snowflake, isso ocorrerá. Isso melhora a performance de algumas consultas.
-
TableSchema
– Uma matriz de objetos Opção.Define manualmente o esquema de destino para o nó. Uma lista de estruturas com as chaves
value
,label
edescription
. Cada estrutura define uma coluna.
Estrutura SnowflakeSource
Especifica uma fonte de dados do Snowflake.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome da fonte de dados do Snowflake.
-
Data
– Obrigatório: um objeto SnowflakeNodeData.Configuração da fonte de dados do Snowflake.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica esquemas definidos pelo usuário para seus dados de saída.
Estrutura SnowflakeTarget
Especifica um destino do Snowflake.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome do destino do Snowflake.
-
Data
– Obrigatório: um objeto SnowflakeNodeData.Especifica os dados do nó de destino do Snowflake.
-
Inputs
: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.Os nós que são entradas para o destino de dados.
Estrutura ConnectorDataSource
Especifica uma fonte gerada com opções de conexão padrão.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome desse nó de origem.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O
connectionType
, conforme fornecido à biblioteca AWS Glue subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
: obrigatório: uma matriz de mapa dos pares de chave-valor.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Um mapa que especifica as opções de conexão para o nó. É possível encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da documentação do AWS Glue.
-
OutputSchemas
– Uma matriz de objetos GlueSchema.Especifica o esquema de dados para esta fonte.
Estrutura ConnectorDataTarget
Especifica um destino gerado com opções de conexão padrão.
Campos
-
Name
– Obrigatório: string UTF-8, correspondente a Custom string pattern #61.O nome desse nó de destino.
-
ConnectionType
– Obrigatório: string UTF-8, correspondente a Custom string pattern #59.O
connectionType
, conforme fornecido à biblioteca AWS Glue subjacente. Esse tipo de nó é compatível com os seguintes tipos de conexão:-
opensearch
-
azuresql
-
azurecosmos
-
bigquery
-
saphana
-
teradata
-
vertica
-
-
Data
: obrigatório: uma matriz de mapa dos pares de chave-valor.Cada chave é uma sequência de caracteres UTF-8.
Cada valor é uma sequência de caracteres UTF-8.
Um mapa que especifica as opções de conexão para o nó. É possível encontrar opções de conexão padrão para o tipo de conexão correspondente na seção Parâmetros de conexão da documentação do AWS Glue.
-
Inputs
: uma matriz de strings UTF-8, com não menos que 1 nem mais que 1 string.Os nós que são entradas para o destino de dados.
Estrutura RecipeStep
Uma etapa de fórmula usada em um nó de fórmula de preparação de dados do AWS Glue Studio.
Campos
-
Action
– Obrigatório: um objeto RecipeAction.A ação de transformação da etapa de fórmula.
-
ConditionExpressions
– Uma matriz de objetos ConditionExpression.Expressões de condição para a etapa de fórmula.
Estrutura RecipeAction
Ações definidas no nó da fórmula de preparação de dados do AWS Glue Studio.
Campos
-
Operation
: obrigatório: string UTF-8, não menos do que 1 ou superior a 128 bytes de comprimento, correspondente a Custom string pattern #54.A operação da ação da fórmula.
-
Parameters
– Um array de mapa dos pares de valor-chave.Cada chave é uma string UTF-8, com comprimento entre 1 e 128 bytes, correspondente a Custom string pattern #55.
Cada chave é uma string UTF-8, podendo ter entre 1 e 32.768 bytes.
Os parâmetros da ação da fórmula.
Estrutura ConditionExpression
Expressão de condição definida no nó da fórmula de preparação de dados do AWS Glue Studio.
Campos
-
Condition
: obrigatório: string UTF-8, não menos do que 1 ou superior a 128 bytes de comprimento, correspondente a Custom string pattern #54.A condição da expressão de condição.
-
Value
: string UTF-8, com no máximo 1.024 bytes.O valor da expressão de condição.
-
TargetColumn
(obrigatório): string UTF-8, podendo ter entre 1 e 1.024 bytes.A coluna de destino das expressões de condição.