Configure los ajustes de respaldo - Amazon Data Firehose

La entrega de transmisiones de Amazon Data Firehose a Apache Iceberg Tables en Amazon S3 está en versión preliminar y está sujeta a cambios.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configure los ajustes de respaldo

Amazon Data Firehose utiliza Amazon S3 para hacer copias de seguridad de todos los datos o solo los datos fallidos que intenta entregar al destino elegido.

importante
  • La configuración de Backup solo se admite si la fuente de la transmisión de Firehose es Direct PUT o Kinesis Data Streams.

  • La función de almacenamiento en búfer cero solo está disponible para los destinos de la aplicación y no está disponible para el destino de respaldo de Amazon S3.

Puedes especificar la configuración de respaldo de S3 para tu transmisión de Firehose si has elegido una de las siguientes opciones.

  • Si estableces Amazon S3 como destino de tu transmisión de Firehose y eliges especificar un AWS Función Lambda para transformar los registros de datos o si decide convertir los formatos de registro de datos para su transmisión Firehose.

  • Si estableces Amazon Redshift como destino de tu transmisión de Firehose y eliges especificar un AWS Función Lambda para transformar registros de datos.

  • Si configuras alguno de los siguientes servicios como destino de tu transmisión de Firehose: Amazon OpenSearch Service, Datadog, Dynatrace, Endpoint, LogicMonitor MongoDB Cloud, New RelicHTTP, Splunk o Sumo Logic, Snowflake o Apache Iceberg Tables.

Los siguientes son los ajustes de respaldo de tu transmisión de Firehose.

  • Copia de seguridad de registros de origen en Amazon S3: si el destino seleccionado es S3 o Amazon Redshift, esta configuración indica si desea habilitar la copia de seguridad de los datos de origen o mantenerla deshabilitada. Si hay algún otro servicio admitido (que no sea S3 o Amazon Redshift) como destino seleccionado, esta configuración indica si desea hacer una copia de seguridad de todos los datos de origen o solo de los datos fallidos.

  • Depósito de copia de seguridad de S3: este es el depósito de S3 en el que Amazon Data Firehose hace copias de seguridad de sus datos.

  • Prefijo del depósito de copia de seguridad S3: es el prefijo con el que Amazon Data Firehose hace copias de seguridad de sus datos.

  • Prefijo de salida de errores del bucket de copias de seguridad de S3: se hace una copia de seguridad de todos los datos fallidos en este prefijo de salida de errores del bucket de S3.

  • Consejos de almacenamiento en búfer, compresión y cifrado para la copia de seguridad: Amazon Data Firehose utiliza Amazon S3 para hacer copias de seguridad de todos los datos o solo los que han fallado y que intenta entregar al destino elegido. Amazon Data Firehose almacena en búfer los datos entrantes antes de entregarlos (realizando una copia de seguridad) a Amazon S3. Puede elegir un tamaño de búfer de 1 a 128 segundos MiBs y un intervalo de búfer de 60 a 900 segundos. La condición que primero se cumpla desencadenará la entrega de datos en Amazon S3. Si habilita la transformación de datos, el intervalo de búfer se aplica desde el momento en que Amazon Data Firehose recibe los datos transformados hasta la entrega de los datos a Amazon S3. Si la entrega de datos al destino se retrasa con respecto a la escritura de datos en la transmisión Firehose, Amazon Data Firehose aumenta el tamaño del búfer de forma dinámica para ponerse al día. Esta acción ayuda a garantizar que todos los datos se entregan en el destino.

  • Compresión S3: elija GZIP una compresión de datos Snappy, Zip o Snappy compatible con Hadoop o ninguna compresión de datos. La compresión Snappy compatible con Snappy, Zip y Hadoop no está disponible para la transmisión de Firehose con Amazon Redshift como destino.

  • Formato de extensión de archivo S3 (opcional): especifique un formato de extensión de archivo para los objetos entregados al bucket de destino de Amazon S3. Si habilita esta función, la extensión de archivo especificada anulará las extensiones de archivo predeterminadas incorporadas por las funciones de conversión de formato de datos o de compresión de S3, como .parquet o .gz. Asegúrese de haber configurado la extensión de archivo correcta cuando utilice esta función con la conversión de formato de datos o la compresión S3. La extensión del archivo debe empezar con un punto (.) y puede contener los caracteres permitidos: 0-9a-z! -_.*' (). La extensión del archivo no puede superar los 128 caracteres.

  • Firehose admite el cifrado del lado del servidor de Amazon S3 con AWS Key Management Service (SSE-KMS) para cifrar los datos entregados en Amazon S3. Puede optar por utilizar el tipo de cifrado predeterminado especificado en el bucket S3 de destino o cifrar con una clave de la lista de AWS KMS claves de las que eres propietario. Si cifra los datos con AWS KMS claves, puede usar cualquiera de las dos claves predeterminadas AWS clave administrada (aws/s3) o una clave administrada por el cliente. Para obtener más información, consulte Protección de datos mediante el cifrado del lado del servidor con AWS KMS-Claves administradas (SSE-). KMS

Configure las sugerencias de almacenamiento en búfer

Amazon Data Firehose almacena en memoria los datos de streaming entrantes hasta un tamaño determinado (tamaño de búfer) y durante un período de tiempo determinado (intervalo de almacenamiento en búfer) antes de entregarlos a los destinos especificados. Debería utilizar sugerencias de almacenamiento en búfer cuando desee entregar archivos de tamaño óptimo a Amazon S3 y obtener un mejor rendimiento de las aplicaciones de procesamiento de datos o para ajustar la tasa de entrega de Firehose para que coincida con la velocidad de destino.

Puedes configurar el tamaño del búfer y el intervalo del búfer al crear nuevos flujos de Firehose o actualizar el tamaño del búfer y el intervalo de almacenamiento en tus flujos Firehose existentes. El tamaño del búfer se mide en segundos y el intervalo de almacenamiento en búfer. MBs Sin embargo, si especifica un valor para uno de ellos, también deberá proporcionar un valor para el otro. La primera condición del búfer que se cumpla hace que Firehose entregue los datos. Si no configura los valores de almacenamiento en búfer, se utilizarán los valores predeterminados.

Puede configurar las sugerencias de almacenamiento en búfer de Firehose a través del AWS Management Console, AWS Command Line Interface, o AWS SDKs. Para las transmisiones existentes, puede reconfigurar las sugerencias de almacenamiento en búfer con un valor que se adapte a sus casos de uso mediante la opción Editar de la consola o mediante la. UpdateDestinationAPI Para las transmisiones nuevas, puede configurar las sugerencias de almacenamiento en búfer como parte de la creación de nuevas transmisiones mediante la consola o mediante la. CreateDeliveryStreamAPI Para ajustar el tamaño del búfer, defina SizeInMBs y IntervalInSeconds en el DestinationConfiguration parámetro específico de destino de la tecla o. CreateDeliveryStreamUpdateDestinationAPI

nota
  • Las sugerencias de búfer se aplican a nivel de fragmento o partición, mientras que las sugerencias de búfer de partición dinámica se aplican a nivel de flujo o tema.

  • Para reducir las latencias en los casos de uso en tiempo real, puedes utilizar una sugerencia de intervalo de almacenamiento en búfer cero. Al configurar el intervalo de almacenamiento en búfer como cero segundos, Firehose no almacenará los datos en búfer y los entregará en unos segundos. Antes de cambiar las sugerencias de almacenamiento en búfer por un valor inferior, consulta con el proveedor las sugerencias de almacenamiento en búfer recomendadas para Firehose para sus destinos.

  • La función de almacenamiento en búfer cero solo está disponible para los destinos de la aplicación y no está disponible para el destino de respaldo de Amazon S3.

  • La función de almacenamiento en búfer cero no está disponible para la partición dinámica.

  • Firehose utiliza la carga en varias partes para el destino S3 cuando configura un intervalo de tiempo de búfer inferior a 60 segundos para ofrecer latencias más bajas. Debido a que la carga se realiza en varias partes para el destino S3, PUT API los costes de S3 aumentarán en cierta medida si eliges un intervalo de tiempo de almacenamiento inferior a 60 segundos.

Para ver los rangos de sugerencias de almacenamiento en búfer específicos del destino y los valores predeterminados, consulta la siguiente tabla:

Destino Tamaño del búfer en MB (predeterminado entre paréntesis) Intervalo de almacenamiento en segundos (predeterminado entre paréntesis)
Amazon S3 1-128 (5) 0-900 (300)
Mesas Apache Iceberg 1-128 (5) 0-900 (300)
Amazon Redshift 1-128 (5) 0-900 (300)
OpenSearch Sin servidor 1-100 (5) 0-900 (300)
OpenSearch 1-100 (5) 0-900 (300)
Splunk 1-5 (5) 0-60 (60)
Datadog 1-4 (4) 0-900 (60)
Coralogix 1-64 (6) 0-900 (60)
Dynatrace 1-64 (5) 0-900 (60)
Elastic 1 0-900 (60)
Honeycomb 1-64 (15) 0-900 (60)
HTTPpunto final 1-64 (5) 0-900 (60)
LogicMonitor 1-64 (5) 0-900 (60)
Logzio 1-64 (5) 0-900 (60)
MongoDB 1-16 (5) 0-900 (60)
newRelic 1-64 (5) 0-900 (60)
sumoLogic 1-64 (1) 0-900 (60)
Splunk Observability Cloud 1-64 (1) 0-900 (60)
Snowflake 1 - 128 (1) 0 - 900 (0)