Hudi - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Hudi

Apache Hudi 是一种开源数据管理框架,用于通过提供记录级插入、更新、更新插入和删除功能来简化增量数据处理和数据管道开发工作。更新插入指的是将记录插入到现有数据集中(如果它们不存在)或对数据集进行更新(如果它们存在)的功能。通过高效地管理数据在 Amazon S3 中的布局方式,Hudi 允许近乎实时地摄取和更新数据。Hudi 仔细维护对数据集执行的操作的元数据,以帮助确保操作是原子级且是一致的。

Hudi 集成了 Apache SparkApache HivePresto。在亚马逊EMR发布的6.1.0及更高版本中,Hudi还与 Trino(Presto)集成。SQL

在亚马逊EMR发布的 5.28.0 及更高版本中,在EMR安装 Spark、Hive、Presto 或 Flink 时,会默认安装 Hudi 组件。你可以使用 Spark 或 Hudi DeltaStreamer 实用程序来创建或更新 Hudi 数据集。您可以使用 Hive、Spark、Presto 或 Flink 以交互方式查询 Hudi 数据集,或使用增量拉取功能构建数据处理管道。增量拉取是指仅拉取两个操作之间更改的数据的功能。

这些功能使得 Hudi 适用于以下使用案例:

  • 处理来自传感器和其它需要特定数据插入和更新事件的物联网 (IoT) 设备的流数据。

  • 在用户可能会选择被忘记或修改其对数据使用方式的同意的应用程序中,遵守数据隐私法规。

  • 实现变更数据捕获 (CDC) 系统,允许您随着时间的推移将更改应用于数据集。

下表列出了最新版本的亚马逊 EMR 7.x 系列中包含的 Hudi 版本,以及亚马逊与 Hudi 一起EMR安装的组件。

有关此版本中与 Hudi 一起安装的组件的版本,请参阅 7.5.0 版本的组件版本。

emr-7.5.0 的 Hudi 版本信息
亚马逊EMR发行标签 Hudi 版本 随 Hudi 安装的组件

emr-7.5.0

Hudi 0.15.0-amzn-2

Not available.

下表列出了最新版本的亚马逊 EMR 6.x 系列中包含的 Hudi 版本,以及亚马逊与 Hudi 一起EMR安装的组件。

有关此发行版中随 Hudi 安装的组件版本,请参阅发行版 6.15.0 组件版本

emr-6.15.0 的 Hudi 版本信息
亚马逊EMR发行标签 Hudi 版本 随 Hudi 安装的组件

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

注意

亚马逊EMR版本6.8.0附带A pache Hudi 0.11.1;但是,EMR亚马逊6.8.0集群也与Hudi 0.12.0的开源集群兼容。hudi-spark3.3-bundle_2.12

下表列出了最新版本的亚马逊 EMR 5.x 系列中包含的 Hudi 版本,以及亚马逊与 Hudi 一起EMR安装的组件。

有关此发行版中随 Hudi 安装的组件版本,请参阅发行版 5.36.2 组件版本

emr-5.36.2 的 Hudi 版本信息
亚马逊EMR发行标签 Hudi 版本 随 Hudi 安装的组件

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.