本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Data Firehose 将数据库更改复制到 Apache 冰山表
注意
除AWS 区域中国地区和亚太地区(马来西亚)外,Firehose 在所有地区都支持数据库作为来源。 AWS GovCloud (US) Regions此功能为预览版,可能会发生变化。请勿将其用于生产工作负载。
Organizations 使用关系数据库来存储和检索交易数据,这些数据经过优化,可以非常快速地同时与一行或几行数据进行交互。它们未针对查询大型聚合数据集进行优化。Organizations 将交易数据从关系数据库转移到分析数据存储,例如数据湖、数据仓库以及其他用于分析和机器学习用例的工具。为了使分析数据存储与关系数据库保持同步,使用了一种名为变更数据捕获 (CDC) 的设计模式,该模式可以实时捕获数据库的所有更改。当在源数据库中通过 INSERT、UPDATE 或 DELETE 更改数据时,必须持续流式传输这些 CDC 更改,而不会影响数据库的性能。
Firehose 提供了一种简单的 easy-to-use end-to-end解决方案,可以将更改从 MySQL 和 PostgreSQL 数据库复制到 Apache Iceberg Tables 中。借助此功能,Firehose 允许您选择希望 Firehose 在 CDC 事件中捕获的特定数据库、表和列。如果你还没有 Iceberg Tables,你可以选择 Firehose 来创建 Iceberg Tables。Firehose 使用与关系数据库表相同的架构创建数据库和表。创建流后,Firehose 会获取表中数据的初始副本,然后写入 Apache Iceberg Tables。初始副本完成后,Firehose 开始连续捕获数据库中疾病预防控制中心的实时更改,并将其复制到 Apache Iceberg Tables 中。如果您选择架构演进,Firehose 会根据您在关系数据库中的架构更改来改进 Iceberg 表架构。
Firehose 还可以将更改从 MySQL 和 PostgreSQL 数据库复制到亚马逊 S3 表。Amazon S3 表格提供针对大规模分析工作负载进行了优化的存储,其功能可持续提高查询性能并降低表格数据的存储成本。借助对 Apache Iceberg 的内置支持,您可以使用包括亚马逊 Athena、Amazon Redshift 和 Apache Spark 在内的流行查询引擎在 Amazon S3 中查询表格数据。有关 Amazon S3 表格的更多信息,请参阅亚马逊 S3 表。Firehose 与 Amazon S3 表的集成已在美国东部(俄亥俄州)、美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区进行预览。请勿将其用于生产工作负载。
对于亚马逊 S3 表,Firehose 不支持自动创建表。在创建 Firehose 直播之前,您必须创建 S3 表。