Configurare le impostazioni di backup - Amazon Data Firehose

La distribuzione di stream Amazon Data Firehose ad Apache Iceberg Tables in Amazon S3 è in anteprima ed è soggetta a modifiche.

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurare le impostazioni di backup

Amazon Data Firehose utilizza Amazon S3 per eseguire il backup di tutti i dati (o solo quelli non riusciti) che tenta di consegnare alla destinazione prescelta.

Importante
  • Le impostazioni di backup sono supportate solo se l'origine del flusso Firehose è Direct PUT o Kinesis Data Streams.

  • La funzionalità di zero buffering è disponibile solo per le destinazioni delle applicazioni e non è disponibile per la destinazione di backup Amazon S3.

È possibile specificare le impostazioni di backup S3 per lo stream Firehose se si è effettuata una delle seguenti scelte.

  • Se imposti Amazon S3 come destinazione per il tuo stream Firehose e scegli di specificare un AWS Funzione Lambda per trasformare i record di dati o se si sceglie di convertire i formati dei record di dati per lo stream Firehose.

  • Se imposti Amazon Redshift come destinazione per il tuo stream Firehose e scegli di specificare un AWS Funzione Lambda per trasformare i record di dati.

  • Se imposti uno dei seguenti servizi come destinazione per il tuo stream Firehose: Amazon OpenSearch Service, Datadog, Dynatrace, EndpointHTTP, LogicMonitor MongoDB Cloud, New Relic, Splunk o Sumo Logic, Snowflake, Apache Iceberg Tables.

Di seguito sono riportate le impostazioni di backup per lo stream Firehose.

  • Backup dei record di origine in Amazon S3: se S3 o Amazon Redshift è la destinazione selezionata, questa impostazione indica se desideri abilitare il backup dei dati di origine o mantenerlo disabilitato. Se qualsiasi altro servizio supportato (diverso da S3 o da Amazon Redshift) è impostato come destinazione selezionata, questa impostazione indica se desideri eseguire il backup di tutti i dati di origine o solo dei dati non riusciti.

  • Bucket di backup S3: questo è il bucket S3 in cui Amazon Data Firehose esegue il backup dei dati.

  • Prefisso del bucket di backup S3: questo è il prefisso con cui Amazon Data Firehose esegue il backup dei dati.

  • Prefisso di output degli errori del bucket di backup S3: il backup di tutti i dati non riusciti viene eseguito nel prefisso di output degli errori di questo bucket S3.

  • Suggerimenti per il buffering, compressione e crittografia per il backup: Amazon Data Firehose utilizza Amazon S3 per eseguire il backup di tutti o solo i dati che tenta di consegnare alla destinazione prescelta. Amazon Data Firehose memorizza nel buffer i dati in entrata prima di consegnarli (eseguendone il backup) su Amazon S3. Puoi scegliere una dimensione del buffer di 1—128 e un intervallo di buffer di 60—900 secondi MiBs . La condizione che viene soddisfatta per prima attiva la distribuzione dei dati ad Amazon S3. Se abiliti la trasformazione dei dati, l'intervallo di buffer si applica dal momento in cui i dati trasformati vengono ricevuti da Amazon Data Firehose alla consegna dei dati ad Amazon S3. Se la consegna dei dati alla destinazione è inferiore alla scrittura dei dati nel flusso Firehose, Amazon Data Firehose aumenta la dimensione del buffer in modo dinamico per recuperare il ritardo. Questa operazione fa in modo che tutti i dati siano distribuiti sulla destinazione.

  • Compressione S3: scegli la compressione dei dati SnappyGZIP, Zip o Snappy compatibile con Hadoop oppure nessuna compressione dei dati. La compressione Snappy compatibile con Snappy, Zip e Hadoop non è disponibile per lo stream Firehose con Amazon Redshift come destinazione.

  • Formato di estensione file S3 (opzionale): specifica un formato di estensione di file per gli oggetti consegnati al bucket di destinazione Amazon S3. Se abiliti questa funzionalità, l'estensione di file specificata sostituirà le estensioni di file predefinite aggiunte dalle funzionalità di compressione Data Format Conversion o S3 come .parquet o .gz. Assicurati di aver configurato l'estensione di file corretta quando usi questa funzionalità con Data Format Conversion o la compressione S3. L'estensione del file deve iniziare con un punto (.) e può contenere caratteri consentiti: 0-9a-z! -_.*' (). L'estensione del file non può superare i 128 caratteri.

  • Firehose supporta la crittografia lato server di Amazon S3 con AWS Key Management Service (SSE-KMS) per crittografare i dati forniti in Amazon S3. Puoi scegliere di utilizzare il tipo di crittografia predefinito specificato nel bucket S3 di destinazione o di crittografare con una chiave dall'elenco di AWS KMS chiavi che possiedi. Se si crittografano i dati con AWS KMS chiavi, puoi usare entrambe le chiavi predefinite AWS chiave gestita (aws/s3) o chiave gestita dal cliente. Per ulteriori informazioni, consulta Protezione dei dati utilizzando la crittografia lato server con AWS KMS-Chiavi gestite (SSE-). KMS

Configura i suggerimenti per il buffering

Amazon Data Firehose memorizza i dati di streaming in entrata fino a una certa dimensione (dimensione di buffering) e per un determinato periodo di tempo (intervallo di buffering) prima di consegnarli alle destinazioni specificate. I suggerimenti di buffering possono essere utilizzati quando si desidera distribuire file di dimensioni ottimali ad Amazon S3 e ottenere prestazioni migliori dalle applicazioni di elaborazione dati o per regolare la velocità di consegna di Firehose in base alla velocità di destinazione.

È possibile configurare la dimensione e l'intervallo di buffer durante la creazione di nuovi flussi Firehose o aggiornare la dimensione e l'intervallo di buffering sui flussi Firehose esistenti. La dimensione del buffering viene misurata in e l'intervallo di buffering viene misurato in secondi. MBs Tuttavia, se specifichi un valore per uno di essi, devi fornire un valore per l'altro. La prima condizione del buffer soddisfatta attiva Firehose per fornire i dati. Se non si configurano i valori di buffering, vengono utilizzati i valori predefiniti.

È possibile configurare i suggerimenti di buffering di Firehose tramite il AWS Management Console, AWS Command Line Interface, oppure AWS SDKs. Per gli stream esistenti, puoi riconfigurare i suggerimenti di buffering con un valore adatto ai tuoi casi d'uso utilizzando l'opzione Modifica nella console o utilizzando. UpdateDestinationAPI Per i nuovi stream, puoi configurare i suggerimenti di buffering come parte della creazione di nuovi flussi utilizzando la console o utilizzando il. CreateDeliveryStreamAPI Per regolare la dimensione del buffering, imposta SizeInMBs e IntervalInSeconds inserisci il DestinationConfiguration parametro specifico di destinazione di o. CreateDeliveryStreamUpdateDestinationAPI

Nota
  • I suggerimenti sul buffer vengono applicati a livello di shard o di partizione, mentre i suggerimenti sul buffer di partizionamento dinamico vengono applicati a livello di stream o topic.

  • Per soddisfare le latenze più basse dei casi d'uso in tempo reale, puoi utilizzare un hint a intervallo di buffering zero. Quando si configura l'intervallo di buffering su zero secondi, Firehose non memorizzerà i dati nel buffer e li consegnerà entro pochi secondi. Prima di modificare i suggerimenti di buffering con un valore inferiore, rivolgiti al fornitore per conoscere i suggerimenti di buffering consigliati da Firehose per le relative destinazioni.

  • La funzionalità di zero buffering è disponibile solo per le destinazioni delle applicazioni e non è disponibile per la destinazione di backup Amazon S3.

  • La funzionalità Zero Buffering non è disponibile per il partizionamento dinamico.

  • Firehose utilizza il caricamento in più parti per la destinazione S3 quando si configura un intervallo di tempo del buffer inferiore a 60 secondi per offrire latenze inferiori. A causa del caricamento in più parti per la destinazione S3, si noterà un certo aumento dei PUT API costi di S3 se si sceglie un intervallo di tempo di buffer inferiore a 60 secondi.

Per gli intervalli di suggerimenti per il buffering specifici della destinazione e i valori predefiniti, consulta la seguente tabella:

Destinazione Dimensione del buffering in MB (impostazione predefinita tra parentesi) Intervallo di buffering in secondi (impostazione predefinita tra parentesi)
Amazon S3 1-128 (5) 0-900 (300)
Tavoli Apache Iceberg 1-128 (5) 0-900 (300)
Amazon Redshift 1-128 (5) 0-900 (300)
OpenSearch Senza server 1-100 (5) 0-900 (300)
OpenSearch 1-100 (5) 0-900 (300)
Splunk 1-5 (5) 0-60 (60)
Datadog 1-4 (4) 0-900 (60)
Coralogix 1-64 (6) 0-900 (60)
Dynatrace 1-64 (5) 0-900 (60)
Elastic 1 0-900 (60)
Honeycomb 1-64 (15) 0-900 (60)
HTTPpunto finale 1-64 (5) 0-900 (60)
LogicMonitor 1-64 (5) 0-900 (60)
Loggiato 1-64 (5) 0-900 (60)
MongoDB 1-16 (5) 0-900 (60)
newRelic 1-64 (5) 0-900 (60)
sumoLogic 1-64 (1) 0-900 (60)
Splunk Observability Cloud 1-64 (1) 0-900 (60)
Snowflake 1 - 128 (1) 0 - 900 (0)