Configuration des paramètres de sauvegarde - Amazon Data Firehose

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration des paramètres de sauvegarde

Amazon Data Firehose utilise Amazon S3 pour sauvegarder toutes les données ou uniquement les données échouées qu'il tente de livrer à la destination que vous avez choisie.

Important
  • Les paramètres de sauvegarde ne sont pris en charge que si la source de votre flux Firehose est Direct PUT ou Kinesis Data Streams.

  • La fonctionnalité de mise en mémoire tampon zéro n'est disponible que pour les destinations de l'application et n'est pas disponible pour la destination de sauvegarde Amazon S3.

Vous pouvez spécifier les paramètres de sauvegarde S3 pour votre flux Firehose si vous avez fait l'un des choix suivants.

  • Si vous définissez Amazon S3 comme destination pour votre flux Firehose et que vous choisissez de spécifier une fonction AWS Lambda pour transformer les enregistrements de données ou si vous choisissez de convertir les formats d'enregistrement de données pour votre flux Firehose.

  • Si vous définissez Amazon Redshift comme destination pour votre flux Firehose et que vous choisissez de spécifier une fonction AWS Lambda pour transformer les enregistrements de données.

  • Si vous définissez l'un des services suivants comme destination pour votre flux Firehose : Amazon OpenSearch Service, Datadog, Dynatrace, HTTP Endpoint, MongoDB Cloud, New Relic, Splunk ou LogicMonitor Sumo Logic, Snowflake, Apache Iceberg Tables.

Voici les paramètres de sauvegarde de votre stream Firehose.

  • Sauvegarde des enregistrements source dans Amazon S3 : si S3 ou Amazon Redshift est la destination que vous avez sélectionnée, ce paramètre indique si vous souhaitez activer la sauvegarde des données source ou la désactiver. Si un autre service pris en charge (autre que S3 ou Amazon Redshift) est défini comme destination sélectionnée, ce paramètre indique si vous souhaitez sauvegarder toutes vos données sources ou uniquement les données ayant échoué.

  • Compartiment de sauvegarde S3 : il s'agit du compartiment S3 dans lequel Amazon Data Firehose sauvegarde vos données.

  • Préfixe du compartiment de sauvegarde S3 : il s'agit du préfixe dans lequel Amazon Data Firehose sauvegarde vos données.

  • Préfixe de sortie d'erreur du compartiment de sauvegarde S3 : toutes les données ayant échoué sont sauvegardées dans ce préfixe de sortie d'erreur de compartiment S3.

  • Conseils de mise en mémoire tampon, compression et chiffrement pour la sauvegarde : Amazon Data Firehose utilise Amazon S3 pour sauvegarder toutes les données ou uniquement les données qu'il tente de livrer à la destination de votre choix, ou uniquement celles qui ont échoué. Amazon Data Firehose met en mémoire tampon les données entrantes avant de les transmettre (en les sauvegardant) à Amazon S3. Vous pouvez choisir une taille de tampon de 1 à 128 MiBs et un intervalle de mémoire tampon de 60 à 900 secondes. La première condition qui est satisfaite déclenche la livraison des données à Amazon S3. Si vous activez la transformation des données, l'intervalle de mémoire tampon s'applique entre le moment où les données transformées sont reçues par Amazon Data Firehose et leur livraison à Amazon S3. Si la livraison des données vers la destination prend du retard par rapport à l'écriture des données dans le flux Firehose, Amazon Data Firehose augmente la taille de la mémoire tampon de manière dynamique pour rattraper le retard. Cette action permet de veiller à ce que toutes les données soient livrées à la destination.

  • Compression S3 : choisissez entre GZIP une compression de données Snappy, Zip ou compatible avec Hadoop, ou aucune compression de données. Compatible avec Snappy, Zip et Hadoop La compression Snappy n'est pas disponible pour le flux Firehose avec Amazon Redshift comme destination.

  • Format d'extension de fichier S3 (facultatif) : spécifiez un format d'extension de fichier pour les objets livrés au compartiment de destination Amazon S3. Si vous activez cette fonctionnalité, l'extension de fichier spécifiée remplacera les extensions de fichier par défaut ajoutées par les fonctionnalités de conversion de format de données ou de compression S3 telles que .parquet ou .gz. Assurez-vous d'avoir configuré la bonne extension de fichier lorsque vous utilisez cette fonctionnalité avec la conversion de format de données ou la compression S3. L'extension de fichier doit commencer par un point (.) et peut contenir les caractères autorisés : 0-9a-z ! -_.*' (). L'extension de fichier ne peut pas dépasser 128 caractères.

  • Firehose prend en charge le chiffrement côté serveur Amazon S3 avec AWS Key Management Service (SSE-KMS) pour chiffrer les données livrées dans Amazon S3. Vous pouvez choisir d'utiliser le type de chiffrement par défaut spécifié dans le compartiment S3 de destination ou de chiffrer avec une clé de la liste des AWS KMS clés que vous possédez. Si vous chiffrez les données à l'aide de AWS KMS clés, vous pouvez utiliser la clé AWS gérée par défaut (aws/s3) ou une clé gérée par le client. Pour plus d'informations, voir Protection des données à l'aide du chiffrement côté serveur avec des clés AWS KMS gérées (SSE-). KMS

Configurer les conseils de mise en mémoire tampon

Amazon Data Firehose met en mémoire tampon les données de streaming entrantes en mémoire jusqu'à une certaine taille (taille de mise en mémoire tampon) et pendant une certaine période (intervalle de mise en mémoire tampon) avant de les transmettre aux destinations spécifiées. Vous pouvez utiliser des conseils de mise en mémoire tampon lorsque vous souhaitez fournir des fichiers de taille optimale à Amazon S3 et améliorer les performances des applications de traitement des données ou pour ajuster le taux de livraison de Firehose en fonction de la vitesse de destination.

Vous pouvez configurer la taille de la mémoire tampon et l'intervalle de mise en mémoire tampon lors de la création de nouveaux flux Firehose ou mettre à jour la taille de la mémoire tampon et l'intervalle de mise en mémoire tampon sur vos flux Firehose existants. La taille de la mémoire tampon est mesurée en secondes MBs et l'intervalle de mise en mémoire tampon est mesuré en secondes. Toutefois, si vous spécifiez une valeur pour l'un d'eux, vous devez également fournir une valeur pour l'autre. La première condition de mémoire tampon satisfaite déclenche la livraison des données par Firehose. Si vous ne configurez pas les valeurs de mise en mémoire tampon, les valeurs par défaut sont utilisées.

Vous pouvez configurer les indices de mise en mémoire tampon de Firehose via le AWS Management Console, AWS Command Line Interface ou. AWS SDKs Pour les flux existants, vous pouvez reconfigurer les indications de mise en mémoire tampon avec une valeur adaptée à vos cas d'utilisation en utilisant l'option Modifier de la console ou en utilisant le. UpdateDestinationAPI Pour les nouveaux flux, vous pouvez configurer des indications de mise en mémoire tampon dans le cadre de la création de nouveaux flux à l'aide de la console ou du CreateDeliveryStreamAPI. Pour ajuster la taille de la mémoire tampon, définissez SizeInMBs et IntervalInSeconds dans le DestinationConfiguration paramètre spécifique à la destination du CreateDeliveryStreamou UpdateDestinationAPI.

Note
  • Les conseils de mémoire tampon sont appliqués au niveau d'une partition ou d'une partition, tandis que les conseils de partitionnement dynamique sont appliqués au niveau du flux ou du sujet.

  • Pour réduire les temps de latence des cas d'utilisation en temps réel, vous pouvez utiliser un indice d'intervalle de mise en mémoire tampon nul. Lorsque vous configurez l'intervalle de mise en mémoire tampon à zéro seconde, Firehose ne met pas les données en mémoire tampon et les fournit en quelques secondes. Avant de remplacer les indications de mise en mémoire tampon par une valeur inférieure, consultez le fournisseur pour connaître les indications de mise en mémoire tampon recommandées pour Firehose en fonction de leurs destinations.

  • La fonctionnalité de mise en mémoire tampon zéro n'est disponible que pour les destinations de l'application et n'est pas disponible pour la destination de sauvegarde Amazon S3.

  • La fonction de mise en mémoire tampon zéro n'est pas disponible pour le partitionnement dynamique.

  • Firehose utilise le téléchargement en plusieurs parties pour la destination S3 lorsque vous configurez un intervalle de temps de mémoire tampon inférieur à 60 secondes afin de réduire les latences. En raison du chargement en plusieurs parties pour la destination S3, vous constaterez une certaine augmentation des PUT API coûts S3 si vous choisissez un intervalle de temps de mémoire tampon inférieur à 60 secondes.

Pour les plages d'indices de mise en mémoire tampon et les valeurs par défaut spécifiques à la destination, consultez le tableau suivant :

Destination Taille de la mémoire tampon en Mo (valeur par défaut entre parenthèses) Intervalle de mise en mémoire tampon en secondes (par défaut entre parenthèses)
Amazon S3 1-128 (5) 0-900 (300)
Tables Apache Iceberg 1-128 (5) 0-900 (300)
Amazon Redshift 1-128 (5) 0-900 (300)
OpenSearch Sans serveur 1 à 100 (5) 0-900 (300)
OpenSearch 1 à 100 (5) 0-900 (300)
Splunk 1-5 (5) 0 à 60 ans (60)
Datadog 1-4 (4) 0-900 (60)
Coralogix 1-64 (6) 0-900 (60)
Dynatrace 1-64 (5) 0-900 (60)
Elasticité 1 0-900 (60)
Honeycomb 1-64 (15) 0-900 (60)
HTTPpoint final 1-64 (5) 0-900 (60)
LogicMonitor 1-64 (5) 0-900 (60)
Logzio 1-64 (5) 0-900 (60)
MongoDB 1 à 16 ans (5) 0-900 (60)
newRelic 1-64 (5) 0-900 (60)
sumoLogic 1-64 (1) 0-900 (60)
Splunk Observability Cloud 1-64 (1) 0-900 (60)
Snowflake 1 à 128 (1) 0 - 900 (0)