本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Hudi
Apache Hudi
Hudi 與 Apache Spark
在 Amazon EMR5.28.0 版及更新版本中, 會在EMR安裝 Spark、Hive、Presto 或 Flink 時,依預設安裝 Hudi 元件。您可以使用 Spark 或 Hudi DeltaStreamer 公用程式來建立或更新 Hudi 資料集。您可以使用 Hive、Spark、Presto 或 Flink 以互動的方式查詢 Hudi 資料集,或使用增量提取建置資料處理管道。增量提取是指僅提取在兩個動作之間變更的資料的能力。
這些功能使 Hudi 適用於下列使用案例:
-
處理來自感應器和其他物聯網 (IoT) 裝置的串流資料,這些資料需要特定的資料插入和更新事件。
-
在應用程式中遵守資料隱私權法規,使用者可能會選擇忘記或修改其對於資料使用方式的同意。
-
實作變更資料擷取 (CDC) 系統
,可讓您將變更套用至資料集。
下表列出 Amazon EMR 7.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。
如需此版本中與 Hudi 一起安裝的元件版本,請參閱 7.5.0 版元件版本。
Amazon EMR發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 |
---|---|---|
emr-7.5.0 |
Hudi 0.15.0-amzn-2 |
Not available. |
下表列出 Amazon EMR 6.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。
如需此版本中與 Hudi 一起搭配安裝的元件版本,請參閱發行版本 6.15.0 元件版本。
Amazon EMR發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 |
---|---|---|
emr-6.15.0 |
Hudi 0.14.0-amzn-0 |
Not available. |
注意
Amazon 6.8.0 EMR版隨附 Apache Hudihudi-spark3.3-bundle_2.12
的開放原始碼相容。
下表列出 Amazon EMR 5.x 系列最新版本中包含的 Hudi 版本,以及 Amazon 搭配 Hudi EMR 安裝的元件。
如需此版本中與 Hudi 一起安裝的元件版本,請參閱 5.36.2 版元件版本。
Amazon EMR發行標籤 | Hudi 版本 | 與 Hudi 一起搭配安裝的元件 |
---|---|---|
emr-5.36.2 |
Hudi 0.10.1-amzn-1 |
Not available. |