¿Qué es Amazon Data Firehose? - Amazon Data Firehose

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Qué es Amazon Data Firehose?

Amazon Data Firehose es un servicio totalmente administrado para entregar datos de streaming en tiempo real en destinos como Amazon Simple Storage Service (Amazon S3), Amazon Redshift, Amazon OpenSearch Service, Amazon OpenSearch sin servidor, Splunk, Apache Iceberg Tables y cualquier punto de conexión HTTP personalizado o puntos de conexión HTTP de proveedores de servicios de terceros compatibles, tales como Datadog, Dynatrace, LogicMonitor, MongoDB, New Relic, Coralogix y Elastic. Con Amazon Data Firehose, no es necesario escribir aplicaciones ni administrar recursos. Configure los productores de datos para que envíen datos a Amazon Data Firehose y este los entrega automáticamente al destino que haya especificado. También puede configurar Amazon Data Firehose para transformar los datos antes de entregarlos.

Para obtener más información sobre las soluciones de macrodatos de AWS, consulte Macrodatos en AWS. Para obtener más información sobre las soluciones de datos de streaming de AWS, consulte ¿Qué son los datos de streaming?.

nota

Tenga en cuenta la solución de datos de streaming de AWS para Amazon MSK más reciente, que proporciona plantillas de AWS CloudFormation en las que los datos fluyen a través de los productores, el almacenamiento de streaming, los consumidores y los destinos.

Conozca los conceptos clave

Al empezar a utilizar Amazon Data Firehose, es recomendable comprender los siguientes conceptos.

Flujo de Firehose

Entidad subyacente de Amazon Data Firehose. Para usar Amazon Data Firehose, se crea un flujo de Firehose y, a continuación, se le envían datos. Para obtener más información, consulte Tutorial: Crear un flujo de Firehose desde la consola y Enviar datos a un flujo de Firehose.

Registro

Datos de interés que el productor de datos envía a un flujo de Firehose. Cada registro puede pesar hasta 1 000 KB.

Productor de datos

Los productores envían los registros a los flujos de Firehose. Por ejemplo, un servidor web que envía datos de registro a un flujo de Firehose es un productor de datos. También puede configurar el flujo de Firehose para que lea automáticamente los datos de un flujo de datos de Kinesis existente y los cargue en los destinos. Para obtener más información, consulte Enviar datos a un flujo de Firehose.

Tamaño e intervalo del búfer

Amazon Data Firehose almacena una cantidad determinada de datos de streaming de entrada en búfer durante un periodo determinado antes de entregarlos en los destinos. Buffer Size se expresa en MB y Buffer Interval, en segundos.

Descripción del flujo de datos en Amazon Data Firehose

En el caso de los destinos de Amazon S3, los datos de streaming se entregan en el bucket de S3. Si habilita la transformación de datos, puede realizar una copia de seguridad de los datos de origen en otro bucket de Amazon S3.

Un diagrama que muestra el flujo de datos de Amazon Data Firehose para Amazon S3.

En el caso de los destinos de Amazon Redshift, los datos de streaming se entregan primero en el bucket de S3. A continuación, Amazon Data Firehose emite un comando COPY de Amazon Redshift para cargar los datos del bucket de S3 en el clúster de Amazon Redshift. Si habilita la transformación de datos, puede realizar una copia de seguridad de los datos de origen en otro bucket de Amazon S3.

Un diagrama que muestra un flujo de datos de Amazon Data Firehose para Amazon Redshift.

En el caso de los destinos de OpenSearch Service, los datos de streaming se entregan en el clúster de OpenSearch Service y se puede hacer una copia de seguridad de ellos en el bucket de S3 simultáneamente.

Un diagrama que muestra un flujo de datos de Amazon Data Firehose para OpenSearch Service.

Si el destino es Splunk, los datos de streaming se entregan a Splunk y se puede hacer un backup de ellos en el bucket de S3 simultáneamente.

Un diagrama que muestra un flujo de datos de Amazon Data Firehose para Splunk.