Comprenda la entrega de datos en Amazon Data Firehose - Amazon Data Firehose

La entrega de transmisiones de Amazon Data Firehose a Apache Iceberg Tables en Amazon S3 está en versión preliminar y está sujeta a cambios.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comprenda la entrega de datos en Amazon Data Firehose

Cuando envías datos a tu transmisión Firehose, se envían automáticamente al destino que elijas. En la siguiente tabla se explica la entrega de datos a diferentes destinos.

Destino Detalles
Amazon S3

Para la entrega de datos a Amazon S3, Firehose concatena varios registros entrantes en función de la configuración de almacenamiento en búfer de la transmisión de Firehose. A continuación, entrega los registros en Amazon S3 como un objeto de Amazon S3. De forma predeterminada, Firehose concatena los datos sin ningún delimitador. Si desea disponer de nuevos delimitadores de línea entre los registros, puede añadir nuevos delimitadores de línea activando la función en la configuración o el parámetro de la consola Firehose. API

Amazon Redshift

Para el envío de datos a Amazon Redshift, Firehose entrega primero los datos entrantes al bucket de S3 en el formato descrito anteriormente. A continuación, Firehose emite un comando de Amazon COPY Redshift para cargar los datos del bucket de S3 en el clúster aprovisionado de Amazon Redshift o en el grupo de trabajo Amazon Redshift Serverless. Asegúrese de que, después de que Amazon Data Firehose haya concatenado varios registros entrantes a un objeto de Amazon S3, el objeto de Amazon S3 se pueda copiar en el clúster aprovisionado de Amazon Redshift o en el grupo de trabajo Amazon Redshift Serverless. Para obtener más información, consulte Parámetros del formato de datos de Amazon Redshift COPY Command.

OpenSearch Servicio y sin servidor OpenSearch Para la entrega de datos a OpenSearch Service y OpenSearch Serverless, Amazon Data Firehose almacena en búfer los registros entrantes en función de la configuración de almacenamiento en búfer de la transmisión de Firehose. A continuación, genera una solicitud masiva de OpenSearch Service o OpenSearch Serverless para indexar varios registros en su clúster de servicios o colección Serverless. OpenSearch OpenSearch Asegúrese de que el registro esté codificado en UTF -8 y aplanado en un JSON objeto de una sola línea antes de enviarlo a Amazon Data Firehose. Además, la rest.action.multi.allow_explicit_index opción de su clúster de OpenSearch servicios debe estar establecida en true (valor predeterminado) para recibir solicitudes masivas con un índice explícito que se establezca por registro. Para obtener más información, consulta las opciones avanzadas de configuración de OpenSearch servicios en la Guía para desarrolladores de Amazon OpenSearch Service.
Splunk

Para la entrega de datos a Splunk, Amazon Data Firehose concatena los bytes que usted envía. Si desea delimitadores en los datos, como, por ejemplo, un carácter de nueva línea, debe insertarlos usted mismo. Asegúrese de que Splunk esté configurado para analizar dichos delimitadores. Para volver a enviar a Splunk los datos que se enviaron al depósito de errores de S3 (copia de seguridad de S3), siga los pasos que se mencionan en la documentación de Splunk.

HTTPpunto final Para la entrega de datos a un HTTP punto final propiedad de un proveedor de servicios externo compatible, puede utilizar el servicio Amazon Lambda integrado para crear una función que transforme los registros entrantes a un formato que coincida con el formato que espera la integración del proveedor de servicios. Póngase en contacto con el proveedor de servicios externo cuyo HTTP punto de enlace haya elegido para su destino para obtener más información sobre el formato de registro aceptado.
Snowflake

Para la entrega de datos a Snowflake, Amazon Data Firehose almacena internamente los datos durante un segundo y utiliza las operaciones de streaming API de Snowflake para insertar datos en Snowflake. De forma predeterminada, los registros que se insertan se vacían y se archivan en la tabla de Snowflake cada segundo. Tras realizar la llamada de inserción, Firehose emite una CloudWatch métrica que mide el tiempo que tardaron los datos en enviarse a Snowflake. Firehose actualmente solo admite un JSON elemento como carga útil de registro y no admite matrices. JSON Asegúrate de que la carga útil de entrada sea un JSON objeto válido y que esté bien formada sin comillas dobles, comillas ni caracteres de escape adicionales.

Cada destino de Firehose tiene su propia frecuencia de entrega de datos. Para obtener más información, consulte Configure las sugerencias de almacenamiento en búfer.

Registros duplicados

Amazon Data Firehose utiliza la at-least-once semántica para la entrega de datos. En algunas circunstancias, como cuando se agota el tiempo de espera para la entrega de datos, los reintentos de entrega por parte de Amazon Data Firehose podrían introducir duplicados si finalmente se aprueba la solicitud de entrega de datos original. Esto se aplica a todos los tipos de destinos compatibles con Amazon Data Firehose.