Hudi - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Hudi

Apache Hudi 是一個開放原始碼資料管理架構,提供記錄層級的插入、更新、upsert 和刪除功能,可用於簡化增量資料處理和資料管道開發。Upsert 是指將記錄插入現有資料集 (如果記錄不存在),或者更新記錄 (如果記錄已存在) 的能力。透過有效地管理資料在 Amazon S3 中的配置方式,Hudi 可讓資料以近乎即時的方式被擷取和更新。Hudi 仔細維護在資料集上執行的動作的中繼資料,以協助確保動作是不可部分完成且一致的。

Hudi 與 Apache SparkApache HivePresto 整合。在 Amazon EMR6.1.0 版及更新版本中,Hudi 也與 Trino (PrestoSQL) 整合。

在 Amazon EMR5.28.0 版及更新版本中, 會在EMR安裝 Spark、Hive、Presto 或 Flink 時,依預設安裝 Hudi 元件。您可以使用 Spark 或 Hudi DeltaStreamer 公用程式來建立或更新 Hudi 資料集。您可以使用 Hive、Spark、Presto 或 Flink 以互動的方式查詢 Hudi 資料集,或使用增量提取建置資料處理管道。增量提取是指僅提取在兩個動作之間變更的資料的能力。

這些功能使 Hudi 適用於下列使用案例:

  • 處理來自感應器和其他物聯網 (IoT) 裝置的串流資料,這些資料需要特定的資料插入和更新事件。

  • 在應用程式中遵守資料隱私權法規,使用者可能會選擇忘記或修改其對於資料使用方式的同意。

  • 實作變更資料擷取 (CDC) 系統,可讓您將變更套用至資料集。

下表列出 Amazon EMR 7.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。

如需此版本中與 Hudi 一起安裝的元件版本,請參閱 7.5.0 版元件版本。

emr-7.5.0 的 Hudi 版本資訊
Amazon EMR發行標籤 Hudi 版本 與 Hudi 一起搭配安裝的元件

emr-7.5.0

Hudi 0.15.0-amzn-2

Not available.

下表列出 Amazon EMR 6.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。

如需此版本中與 Hudi 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本

emr-6.15.0 的 Hudi 版本資訊
Amazon EMR發行標籤 Hudi 版本 與 Hudi 一起搭配安裝的元件

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

注意

Amazon 6.8.0 EMR版隨附 Apache Hudi 0.11.1;不過,Amazon EMR 6.8.0 叢集也與 Hudi 0.12.0 hudi-spark3.3-bundle_2.12的開放原始碼相容。

下表列出 Amazon EMR 5.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。

如需此版本中與 Hudi 一起安裝的元件版本,請參閱 5.36.2 版元件版本。

emr-5.36.2 的 Hudi 版本資訊
Amazon EMR發行標籤 Hudi 版本 與 Hudi 一起搭配安裝的元件

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.