什么是 Amazon Data Firehose? - Amazon Data Firehose

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Data Firehose?

Amazon Data Firehose 是一项完全托管的服务,用于将实时流数据传输到目的地,比如 Amazon Simple Storage Service(Amazon S3)、Amazon Redshift、Amazon OpenSearch Service、Amazon OpenSearch 无服务器、Splunk、Apache Iceberg 表,以及任何自定义 HTTP 端点或受支持的第三方服务提供商拥有的 HTTP 端点,包括 Datadog、Dynatrace、LogicMonitor、MongoDB、New Relic、Coralogix 和 Elastic。在使用 Amazon Data Firehose 时,您无需编写应用程序或管理资源。您可以配置数据生产者,将数据发送到 Amazon Data Firehose,后者会自动将数据传输到您指定的目的地。您还可以配置 Amazon Data Firehose 在传输之前转换数据。

有关 AWS 大数据解决方案的更多信息,请参阅 AWS 上的大数据。有关 AWS 流数据解决方案的更多信息,请参阅什么是流数据?

注意

请注意,适用于 Amazon MSK 的最新 AWS 流数据解决方案提供了 AWS CloudFormation 模板,其中数据流经生产者、流式存储、使用者和目标位置。

了解关键概念

开始使用 Amazon Data Firehose 时,您可以从理解以下概念中受益。

Firehose 流

Amazon Data Firehose 的基础实体。您可以通过创建 Firehose 流,然后向其发送数据来使用 Amazon Data Firehose。有关更多信息,请参阅教程:从控制台创建 Firehose 流向 Firehose 流发送数据

记录

数据创建器发送到 Firehose 流的相关数据。记录最大可达 1000 KB。

数据创建器

创建器将记录发送到 Firehose 流。例如,发送日志数据到 Firehose 流的 Web 服务器是数据创建器。您还可以配置 Firehose 流,以自动从现有 Kinesis 数据流读取数据,并将其加载到目的地。有关更多信息,请参阅 向 Firehose 流发送数据

缓冲区大小和缓冲间隔

Amazon Data Firehose 将传入的流数据缓冲到一定大小,或缓冲一定时间后再将其传输到目的地。Buffer Size 的单位是 MB,Buffer Interval 的单位是秒。

了解 Amazon Data Firehose 中的数据流

对于 Amazon S3 目标,流数据将传输到您的 S3 存储桶。如果启用了数据转换,您可以选择将源数据备份到另一个 Amazon S3 存储桶。

显示适用于 Amazon S3 的 Amazon Data Firehose 数据流的关系图。

对于 Amazon Redshift 目标,流数据将传输到您的 S3 存储桶。然后,Amazon Data Firehose 会发出 Amazon Redshift COPY 命令,将数据从 S3 存储桶加载到 Amazon Redshift 集群。如果启用了数据转换,您可以选择将源数据备份到另一个 Amazon S3 存储桶。

显示适用于 Amazon Redshift 的 Amazon Data Firehose 数据流的关系图。

对于 OpenSearch Service 目标,流数据将传输到您的 OpenSearch Service 集群,并且可以选择同时备份到 S3 存储桶。

显示适用于 OpenSearch Service 的 Amazon Data Firehose 数据流的关系图。

对于 Splunk 目标,流数据将传输到 Splunk,并且可以选择将流数据同时备份到 S3 存储桶中。

显示适用于 Splunk 的 Amazon Data Firehose 数据流的关系图。