AWS Glue Connessioni streaming

Le seguenti sezioni forniscono informazioni su come utilizzare le connessioni in AWS Glue Streaming.

Argomenti

Lavorare con le connessioni Kafka
Utilizzo delle connessioni Kinesis

Lavorare con le connessioni Kafka

È possibile utilizzare una connessione Kafka per leggere e scrivere su flussi di dati Kafka utilizzando le informazioni memorizzate in una tabella del catalogo dati o fornendo informazioni per accedere direttamente al flusso di dati. La connessione supporta un cluster Kafka o un cluster Amazon Managed Streaming for Apache Kafka. Puoi leggere le informazioni di Kafka in uno Spark DataFrame, quindi convertirle in un Glue. AWS DynamicFrame Puoi scrivere DynamicFrames a Kafka in un formato. JSON Se accedi direttamente al flusso di dati, utilizza queste opzioni per fornire le informazioni su come accedere al flusso di dati.

Se si utilizzano getCatalogSource o create_data_frame_from_catalog si utilizzano record da una sorgente di streaming Kafka getCatalogSink o si desidera write_dynamic_frame_from_catalog scrivere record su Kafka, e il job dispone del database Data Catalog e delle informazioni sul nome della tabella e può utilizzarle per ottenere alcuni parametri di base per la lettura dalla sorgente di streaming Kafka. Se si utilizzagetSource,,getCatalogSink, createDataFrameFromOptions o o getSourceWithFormat getSinkWithFormat create_data_frame_from_optionswrite_dynamic_frame_from_catalog, è necessario specificare questi parametri di base utilizzando le opzioni di connessione descritte qui.

È possibile specificare le opzioni di connessione per Kafka utilizzando i seguenti argomenti per i metodi specificati nella GlueContext classe.

Scala
- connectionOptions: utilizza con getSource, createDataFrameFromOptions e getSink
- additionalOptions: utilizza con getCatalogSource, getCatalogSink
- options: utilizza con getSourceWithFormat, getSinkWithFormat
Python
- connection_options: utilizza con create_data_frame_from_options, write_dynamic_frame_from_options
- additional_options: utilizza con create_data_frame_from_catalog, write_dynamic_frame_from_catalog
- options: utilizza con getSource, getSink

Per note e restrizioni sui ETL lavori di streaming, consulta. ETLNote e restrizioni relative allo streaming

Argomenti

Configurazione di Kafka

Non ci sono AWS prerequisiti per la connessione agli stream di Kafka disponibili su Internet.

Puoi creare una connessione AWS Glue Kafka per gestire le tue credenziali di connessione. Per ulteriori informazioni, consulta Creare un AWS Glue connessione per un flusso di dati Apache Kafka. Nella configurazione del tuo lavoro AWS Glue, fornisci connectionName come connessione di rete aggiuntiva, quindi, nella chiamata al metodo, fornisci connectionName al connectionName parametro.

In alcuni casi, è necessario configurare ulteriori prerequisiti:

Se utilizzi Amazon Managed Streaming for Apache IAM Kafka con autenticazione, avrai bisogno di una configurazione appropriata. IAM
Se utilizzi Amazon Managed Streaming for Apache Kafka all'interno di Amazon, avrai bisogno di VPC una configurazione Amazon appropriata. VPC Dovrai creare una connessione AWS Glue che fornisca informazioni sulla VPC connessione Amazon. È necessaria la configurazione del lavoro per includere la connessione AWS Glue come connessione di rete aggiuntiva.

Per ulteriori informazioni sui prerequisiti del ETL lavoro in Streaming, consultaETLOfferte di lavoro in streaming in AWS Glue.

Esempio: lettura di flussi da Kafka

Usato in combinazione con forEachBatch.

Esempio per l'origine di streaming Kafka:


kafka_options =
    { "connectionName": "ConfluentKafka", 
      "topicName": "kafka-auth-topic", 
      "startingOffsets": "earliest", 
      "inferSchema": "true", 
      "classification": "json" 
    }
data_frame_datasource0 = glueContext.create_data_frame.from_options(connection_type="kafka", connection_options=kafka_options)

Esempio: scrivere su stream Kafka

Esempi per scrivere a Kafka:

Esempio con il metodogetSink:


data_frame_datasource0 = 
glueContext.getSink(
	connectionType="kafka",
	connectionOptions={
		JsonOptions("""{
			"connectionName": "ConfluentKafka", 
			"classification": "json", 
			"topic": "kafka-auth-topic", 
			"typeOfData": "kafka"}
		""")}, 
	transformationContext="dataframe_ApacheKafka_node1711729173428")
	.getDataFrame()

Esempio con il write_dynamic_frame.from_options metodo:


kafka_options =
    { "connectionName": "ConfluentKafka", 
      "topicName": "kafka-auth-topic", 
      "classification": "json" 
    }
data_frame_datasource0 = glueContext.write_dynamic_frame.from_options(connection_type="kafka", connection_options=kafka_options)

Indicazioni di riferimento alle opzioni di connessione a Kafka

Durante la lettura, utilizzate le seguenti opzioni di connessione con"connectionType": "kafka":

"bootstrap.servers"(Obbligatorio) Un elenco di server di bootstrapURLs, ad esempio, comeb-1.vpc-test-2.o4q88o.c6.kafka.us-east-1.amazonaws.com:9094. Questa opzione deve essere specificata nella API chiamata o definita nei metadati della tabella nel Data Catalog.
"security.protocol" (Obbligatorio) Il protocollo utilizzato per comunicare con i broker. I valori possibili sono "SSL" o "PLAINTEXT".
"topicName": (obbligatorio) un elenco separato da virgole di argomenti a cui iscriversi. Devi specificare solo uno tra "topicName", "assign" o "subscribePattern".
"assign": (Obbligatorio) Una JSON stringa che specifica lo specifico TopicPartitions da consumare. Devi specificare solo uno tra "topicName", "assign" o "subscribePattern".

Esempio: '{"topicA":[0,1],"topicB":[2,4]}'
"subscribePattern": (Obbligatorio) una stringa regex Java che identifichi l'elenco degli argomenti a cui effettuare la sottoscrizione. Devi specificare solo uno tra "topicName", "assign" o "subscribePattern".

Esempio: 'topic.*'
"classification" (obbligatorio): il formato di file utilizzato dai dati nel record. Obbligatorio, a meno che non sia fornito tramite Catalogo dati.
"delimiter"(Facoltativo) Il separatore di valori utilizzato quando èclassification. CSV Il valore predefinito è ",".
"startingOffsets": (Facoltativo) la posizione di partenza nell'argomento Kafka da cui leggere i dati. I valori possibili sono "earliest" o "latest". Il valore predefinito è "latest".
"startingTimestamp": (Facoltativo, supportato solo per AWS Glue versione 4.0 o successiva) Il timestamp del record nell'argomento Kafka da cui leggere i dati. Il valore possibile è una stringa Timestamp nel UTC formato del pattern yyyy-mm-ddTHH:MM:SSZ (dove Z rappresenta un offset del UTC fuso orario con un +/-. Ad esempio: «2023-04-04T 08:00:00-04:00 «).

Nota: nell'elenco delle opzioni di connessione dello script di streaming AWS Glue può essere presente solo una delle seguenti proprietà, l'inclusione di entrambe queste proprietà causerà un errore del lavoro. startingOffsets startingTimestamp
"endingOffsets": (Facoltativo) il punto di fine di una query batch. I valori possibili sono uno "latest" o una JSON stringa che specifica un offset finale per ciascuno di essi. TopicPartition

Per la JSON stringa, il formato è. {"topicA":{"0":23,"1":-1},"topicB":{"0":-1}} Il valore -1 come offset rappresenta "latest".
"pollTimeoutMs": (Facoltativo) il timeout in millisecondi per il polling dei dati da Kafka negli executor del processo Spark. Il valore predefinito è 512.
"numRetries": (Facoltativo) i numero di tentativi prima di non riuscire a recuperare gli offset Kafka. Il valore predefinito è 3.
"retryIntervalMs": (Facoltativo) il tempo di attesa in millisecondi prima di riprovare a recuperare gli offset Kafka. Il valore predefinito è 10.
"maxOffsetsPerTrigger": (Facoltativo) il limite di velocità sul numero massimo di offset elaborati per intervallo di trigger. Il numero totale di offset specificato viene suddiviso proporzionalmente tra topicPartitions di diversi volumi. Il valore di default è null, il che significa che il consumer legge tutti gli offset fino all'ultimo offset noto.
"minPartitions": (Facoltativo) il numero minimo desiderato di partizioni da leggere da Kafka. Il valore di default è null, il che significa che il numero di partizioni Spark è uguale al numero di partizioni Kafka.
"includeHeaders": (Facoltativo) indica se includere le intestazioni Kafka. Quando l'opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "glue_streaming_kafka_headers" con tipo Array[Struct(key: String, value: String)]. Il valore di default è "false". Questa opzione è disponibile in AWS Glue versione 3.0 o successive.
"schema": (Obbligatorio se inferSchema impostato su false) Lo schema da utilizzare per elaborare il payload. Se la classificazione è avro, lo schema fornito dovrà essere nel formato dello schema Avro. Se la classificazione non è validaavro, lo schema fornito deve essere nel formato dello DDL schema.

Di seguito sono riportati alcuni esempi di schema.
Example in DDL schema format
```
'column1' INT, 'column2' STRING , 'column3' FLOAT
```
Example in Avro schema format
```
{
"type":"array",
"items":
{
"type":"record",
"name":"test",
"fields":
[
  {
    "name":"_id",
    "type":"string"
  },
  {
    "name":"index",
    "type":
    [
      "int",
      "string",
      "float"
    ]
  }
]
}
}
```
"inferSchema": (facoltativo) il valore di default è "false". Se impostato su "true", lo schema verrà rilevato in fase di runtime dal payload all'interno di foreachbatch.
"avroSchema": (obsoleto) parametro utilizzato per specificare uno schema di dati Avro quando viene utilizzato il formato Avro. Questo parametro è obsoleto. Utilizzo del parametro schema.
"addRecordTimestamp": (Facoltativo) Quando questa opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "__src_timestamp" che indica l'ora in cui il record corrispondente è stato ricevuto dall'argomento. Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.
"emitConsumerLagMetrics": (Facoltativo) Quando l'opzione è impostata su «true», per ogni batch, emette le metriche relative alla durata compresa tra il record più vecchio ricevuto dall'argomento e il momento in AWS Glue cui arriva. CloudWatch Il nome della metrica è «glue.driver.streaming. maxConsumerLagInMs». Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.

Durante la scrittura, usa le seguenti opzioni di connessione con"connectionType": "kafka":

"connectionName"(Obbligatorio) Nome della connessione AWS Glue utilizzata per connettersi al cluster Kafka (simile al sorgente Kafka).
"topic"(Obbligatorio) Se esiste una colonna di argomento, il suo valore viene utilizzato come argomento quando si scrive la riga specificata in Kafka, a meno che non sia impostata l'opzione di configurazione dell'argomento. Cioè, l'opzione di topic configurazione sovrascrive la colonna dell'argomento.
"partition"(Facoltativo) Se viene specificato un numero di partizione valido, partition verrà utilizzato per l'invio del record.

Se non viene specificata alcuna partizione ma key è presente a, verrà scelta una partizione utilizzando un hash della chiave.

Se key nessuna delle due opzioni partition è presente, verrà scelta una partizione in base al partizionamento permanente (le modifiche verranno apportate quando alla partizione vengono generati almeno byte batch.size).
"key"(Facoltativo) Utilizzato per il partizionamento if è nullo. partition
"classification"(Facoltativo) Il formato di file utilizzato dai dati nel record. JSONSupportiamo solo Avro CSV e.

Con il formato Avro, possiamo fornire una serializzazione personalizzata avroSchema , ma tieni presente che questo deve essere fornito anche sul codice sorgente per la deserializzazione. Altrimenti, per impostazione predefinita utilizza Apache per la serializzazione. AvroSchema

Inoltre, è possibile ottimizzare il sink Kafka secondo necessità aggiornando i parametri di configurazione di Kafka Producer. Nota che non esiste un elenco delle opzioni di connessione consentite, tutte le coppie chiave-valore vengono mantenute nel sink così come sono.

Tuttavia, esiste un piccolo elenco di opzioni di rifiuto che non avranno effetto. Per ulteriori informazioni, vedere Configurazioni specifiche di Kafka.

Utilizzo delle connessioni Kinesis

È possibile utilizzare una connessione Kinesis per leggere e scrivere su flussi di dati Amazon Kinesis utilizzando le informazioni memorizzate in una tabella Data Catalog o fornendo informazioni per accedere direttamente al flusso di dati. Puoi leggere le informazioni da Kinesis in Spark DataFrame, quindi convertirle in un Glue. AWS DynamicFrame È possibile DynamicFrames scrivere su Kinesis in un JSON formato. Se accedi direttamente al flusso di dati, utilizza queste opzioni per fornire le informazioni su come accedere al flusso di dati.

Se utilizzi getCatalogSource o create_data_frame_from_catalog per consumare i registri da una sorgente di streaming Kinesis, il processo avrà le informazioni sul database catalogo dati e sul nome della tabella, e potrà usarle per ottenere alcuni parametri di base per la lettura dalla sorgente di streaming Kinesis. Se utilizzi getSource, getSourceWithFormat, createDataFrameFromOptions o create_data_frame_from_options, dovrai specificare questi parametri di base utilizzando le opzioni di connessione descritte qui.

È possibile specificare le opzioni di connessione per Kinesis utilizzando i seguenti argomenti per i metodi specificati nella classe GlueContext.

Scala
- connectionOptions: utilizza con getSource, createDataFrameFromOptions e getSink
- additionalOptions: utilizza con getCatalogSource, getCatalogSink
- options: utilizza con getSourceWithFormat, getSinkWithFormat
Python
- connection_options: utilizza con create_data_frame_from_options, write_dynamic_frame_from_options
- additional_options: utilizza con create_data_frame_from_catalog, write_dynamic_frame_from_catalog
- options: utilizza con getSource, getSink

Per note e restrizioni sui ETL lavori di Streaming, consultaETLNote e restrizioni relative allo streaming.

Configurazione di Kinesis

Per connetterti a un flusso di dati Kinesis in un job AWS Glue Spark, avrai bisogno di alcuni prerequisiti:

Se è in lettura, il job AWS Glue deve disporre IAM delle autorizzazioni di accesso Read per il flusso di dati Kinesis.
In fase di scrittura, il job AWS Glue deve disporre IAM delle autorizzazioni di livello di accesso Write per il flusso di dati Kinesis.

In alcuni casi, è necessario configurare ulteriori prerequisiti:

Se il tuo job AWS Glue è configurato con connessioni di rete aggiuntive (in genere per connettersi ad altri set di dati) e una di queste connessioni offre opzioni di VPC rete Amazon, questo indirizzerà il tuo job alla comunicazione su AmazonVPC. In questo caso dovrai anche configurare il flusso di dati Kinesis per comunicare su Amazon. VPC Puoi farlo creando un VPC endpoint di interfaccia tra il tuo flusso di dati Amazon VPC e Kinesis. Per ulteriori informazioni, consulta Using Kinesis Data Streams VPC with Interface Endpoints.
Quando si specifica un flusso di dati Amazon Kinesis in un altro account, è necessario impostare i ruoli e le policy per consentire l'accesso multi-account. Per ulteriori informazioni, consulta Esempio: lettura da un flusso Kinesis in un account diverso.

Per ulteriori informazioni sui prerequisiti del ETL lavoro in Streaming, consulta. ETLOfferte di lavoro in streaming in AWS Glue

Lettura da Kinesis

Esempio: lettura da flussi Kinesis

Usato in combinazione con forEachBatch.

Esempio per l'origine di streaming Amazon Kinesis:


kinesis_options =
   { "streamARN": "arn:aws:kinesis:us-east-2:777788889999:stream/fromOptionsStream",
     "startingPosition": "TRIM_HORIZON", 
     "inferSchema": "true", 
     "classification": "json" 
   }
data_frame_datasource0 = glueContext.create_data_frame.from_options(connection_type="kinesis", connection_options=kinesis_options)

Scrittura su Kinesis

Esempio: scrittura su flussi Kinesis

Usato in combinazione con forEachBatch. Il tuo DynamicFrame verrà scritto nello stream in un JSON formato. Se il processo non riesce a scrivere dopo diversi tentativi, riporterà un errore. Per impostazione predefinita, ogni DynamicFrame record viene inviato allo stream Kinesis singolarmente. È possibile configurare questo comportamento utilizzando aggregationEnabled e i parametri associati.

Esempio di scrittura su Amazon Kinesis da un processo di streaming:

Parametri di connessione Kinesis

Indica le opzioni di connessione ad Amazon Kinesis Data Streams.

Utilizza le seguenti opzioni di connessione per le origini dati in streaming Kinesis:

"streamARN": (obbligatorio) utilizzato per la lettura/scrittura. Il ARN flusso di dati Kinesis.
"classification": (obbligatorio per la lettura) utilizzato per la lettura. Il formato di file utilizzato dai dati nel record. Obbligatorio, a meno che non sia fornito tramite Catalogo dati.
"streamName": (facoltativo) utilizzato per la lettura. Il nome di un flusso di dati Kinesis da cui leggere. Usato con endpointUrl.
"endpointUrl": (facoltativo) utilizzato per la lettura. Predefinito: "https://kinesis.us-east-1.amazonaws.com». L' AWS endpoint del flusso Kinesis. Non è necessario modificarlo a meno che non ci si stia connettendo a una regione speciale.
"partitionKey": (facoltativo) utilizzato per la scrittura. La chiave di partizione di Kinesis utilizzata per la produzione dei record.
"delimiter": (facoltativo) utilizzato per la lettura. Il separatore di valori usato quando è. classification CSV Il valore predefinito è ",".
"startingPosition": (facoltativo) utilizzato per la lettura. La posizione di partenza nel flusso dei dati Kinesis da cui leggere i dati. I valori possibili sono"latest", "trim_horizon""earliest", o una stringa Timestamp nel UTC formato nel modello yyyy-mm-ddTHH:MM:SSZ (dove Z rappresenta un offset di UTC fuso orario con un +/-. Ad esempio «2023-04-04T 08:00:00-04:00 «). Il valore predefinito è "latest". Nota: la stringa Timestamp in UTC Format for "startingPosition" è supportata solo per AWS Glue versione 4.0 o successiva.
"failOnDataLoss": (facoltativo) non è possibile eseguire il processo se una partizione attiva è mancante o scaduta. Il valore predefinito è "false".
"awsSTSRoleARN": (facoltativo) utilizzato per la lettura/scrittura. L'Amazon Resource Name (ARN) del ruolo da assumere utilizzando AWS Security Token Service (AWS STS). Questo ruolo deve disporre delle autorizzazioni per descrivere o leggere le operazioni dei registri per il flusso di dati Kinesis. Quando si accede a un flusso di dati in un altro account, è necessario utilizzare questo parametro. Usato in combinazione con "awsSTSSessionName".
"awsSTSSessionName": (facoltativo) utilizzato per la lettura/scrittura. Un identificatore della sessione che assume il ruolo usando AWS STS. Quando si accede a un flusso di dati in un altro account, è necessario utilizzare questo parametro. Usato in combinazione con "awsSTSRoleARN".
"awsSTSEndpoint": (Facoltativo) L' AWS STS endpoint da utilizzare quando ci si connette a Kinesis con un ruolo presunto. Ciò consente di utilizzare l' AWS STS endpoint regionale in aVPC, cosa non possibile con l'endpoint globale predefinito.
"maxFetchTimeInMs": (facoltativo) utilizzato per la lettura. Il tempo massimo impiegato dall'esecutore del lavoro per leggere i record del batch corrente dal flusso di dati Kinesis, specificato in millisecondi (ms). È possibile GetRecords API effettuare più chiamate entro questo periodo. Il valore predefinito è 1000.
"maxFetchRecordsPerShard": (facoltativo) utilizzato per la lettura. Il numero massimo di record da recuperare per shard nel flusso di dati Kinesis per microbatch. Nota: il client può superare questo limite se il job di streaming ha già letto record aggiuntivi da Kinesis (nella stessa chiamata get-records). Se maxFetchRecordsPerShard deve essere rigoroso, deve essere un multiplo di. maxRecordPerRead Il valore predefinito è 100000.
"maxRecordPerRead": (facoltativo) utilizzato per la lettura. Il numero massimo di record da recuperare nel flusso di dati Kinesis in ciascuna operazione getRecords. Il valore predefinito è 10000.
"addIdleTimeBetweenReads": (facoltativo) utilizzato per la lettura. Aggiunge un ritardo tra due operazioni consecutive getRecords. Il valore predefinito è "False". Questa opzione è configurabile solo per Glue versione 2.0 e successive.
"idleTimeBetweenReadsInMs": (facoltativo) utilizzato per la lettura. Il ritardo minimo tra due operazioni consecutive getRecords, specificato in ms. Il valore predefinito è 1000. Questa opzione è configurabile solo per Glue versione 2.0 e successive.
"describeShardInterval": (facoltativo) utilizzato per la lettura. L'intervallo di tempo minimo tra due ListShards API chiamate entro il quale lo script deve prendere in considerazione il resharding. Per ulteriori informazioni, consulta Strategie per il resharding nella Guida per gli sviluppatori di Amazon Kinesis Data Streams. Il valore predefinito è 1s.
"numRetries": (facoltativo) utilizzato per la lettura. Il numero massimo di tentativi per le richieste Kinesis Data Streams. API Il valore predefinito è 3.
"retryIntervalMs": (facoltativo) utilizzato per la lettura. Il periodo di riflessione (specificato in ms) prima di riprovare la chiamata Kinesis Data Streams. API Il valore predefinito è 1000.
"maxRetryIntervalMs": (facoltativo) utilizzato per la lettura. Il periodo di raffreddamento massimo (specificato in ms) tra due tentativi di una chiamata Kinesis Data Streams. API Il valore predefinito è 10000.
"avoidEmptyBatches": (facoltativo) utilizzato per la lettura. Impedisce la creazione di un processo microbatch vuoto controllando la presenza di dati non letti nel flusso dei dati Kinesis prima che il batch venga avviato. Il valore predefinito è "False".
"schema": (Obbligatorio se inferSchema impostato su false) Utilizzato per la lettura. Lo schema da utilizzare per elaborare il payload. Se la classificazione è avro, lo schema fornito dovrà essere nel formato dello schema Avro. Se la classificazione non è validaavro, lo schema fornito deve essere nel formato dello DDL schema.

Di seguito sono riportati alcuni esempi di schema.
Example in DDL schema format
```
`column1` INT, `column2` STRING , `column3` FLOAT
```
Example in Avro schema format
```
{
  "type":"array",
  "items":
  {
    "type":"record",
    "name":"test",
    "fields":
    [
      {
        "name":"_id",
        "type":"string"
      },
      {
        "name":"index",
        "type":
        [
          "int",
          "string",
          "float"
        ]
      }
    ]
  }
}
```
"inferSchema": (facoltativo) utilizzato per la lettura. Il valore predefinito è "false". Se impostato su "true", lo schema verrà rilevato in fase di runtime dal payload all'interno di foreachbatch.
"avroSchema": (obsoleto) utilizzato per la lettura. Parametro utilizzato per specificare uno schema di dati Avro quando viene utilizzato il formato Avro. Questo parametro è obsoleto. Utilizzo del parametro schema.
"addRecordTimestamp": (facoltativo) utilizzato per la lettura. Quando questa opzione è impostata su "true", l'output dei dati conterrà una colonna aggiuntiva denominata "__src_timestamp" che indica l'ora in cui il record corrispondente è stato ricevuto dal flusso. Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.
"emitConsumerLagMetrics": (facoltativo) utilizzato per la lettura. Quando l'opzione è impostata su «true», per ogni batch emette le metriche relative alla durata compresa tra il record più vecchio ricevuto dallo stream e il momento in AWS Glue cui arriva. CloudWatch Il nome della metrica è «glue.driver.streaming. maxConsumerLagInMs». Il valore predefinito è "false". Questa opzione è supportata in AWS Glue versione 4.0 o successive.
"fanoutConsumerARN": (facoltativo) utilizzato per la lettura. Il ARN nome di un utente di stream Kinesis per lo stream specificato in. streamARN Utilizzato per abilitare la modalità di fan-out avanzato per la connessione Kinesis. Per ulteriori informazioni sull'utilizzo di un flusso Kinesis con fan-out avanzato, consulta la pagina Utilizzo del fan-out avanzato nei processi di flussi di dati Kinesis.
"recordMaxBufferedTime": (facoltativo) utilizzato per la scrittura. Predefinito: 1000 (ms). Tempo massimo di memorizzazione nel buffer di un record in attesa di essere scritto.
"aggregationEnabled": (facoltativo) utilizzato per la scrittura. Default: true (VERO). Speciifica se i record devono essere aggregati prima di inviarli a Kinesis.
"aggregationMaxSize": (facoltativo) utilizzato per la scrittura. Impostazione predefinita: 51200 (byte). Se un record è superiore a questo limite, ignorerà l'aggregatore. Ricorda che Kinesis impone un limite di 50 KB alla dimensione del record. Se imposti questo valore oltre i 50 KB, i record di grandi dimensioni verranno rifiutati da Kinesis.
"aggregationMaxCount": (facoltativo) utilizzato per la scrittura. Predefinito: 4294967295. Numero massimo di voci da inserire in un record aggregato.
"producerRateLimit": (facoltativo) utilizzato per la scrittura. Predefinito: 150 (%). Limita la velocità di trasmissione effettiva per partizione inviata da un singolo produttore (ad esempio, il tuo processo), come percentuale del limite di backend.
"collectionMaxCount": (facoltativo) utilizzato per la scrittura. Predefinito: 500. Numero massimo di articoli da imballare in una PutRecords richiesta.
"collectionMaxSize": (facoltativo) utilizzato per la scrittura. Impostazione predefinita: 5242880 (byte). Quantità massima di dati da inviare con una PutRecords richiesta.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Concetti relativi allo streaming

AWS Glue scalabilità automatica in streaming