使 AWS Lake Formation 用 Amazon EMR - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使 AWS Lake Formation 用 Amazon EMR

Amazon EMR 是一個靈活的 AWS 託管集群平台,你可以在支持的大數據框架,如 Hadoop 的地圖減少,星火,蜂巢,普雷斯托等運行任何自定義代碼。Organizations 還使用 Amazon EMR 在高度分散的叢集中執行批次和串流資料處理應用程式。在 Amazon 上使用 Apache SparkEMR,您可以在許可由 Lake Formation 管理的數據庫和表上運行數據轉換和自定義代碼。

部署 Amazon 有三個選項EMR:

  • EMR上 EC2

  • EMR無伺服器

  • Amazon EMR EKS

如需詳細資訊,請參閱將 Amazon EMR 與 Lake Formation 整合使用EMR無伺服器搭配進行精細 AWS Lake Formation 的存取控制

Support 交易表格格式

當您使用 Spark 讀取和寫入資料時,Amazon EMR 版本 6.15.0 及更高版本包括對 Apache Hudi、Apache 冰山達美湖表格式的湖泊 Lake Formation 表、列、欄和儲存格層級存取控制權限的支援。SQL

有關限制,請參閱 Amazon EMR 與 Lake Formation 的注意事項

支援的表格格式
資料表格式 說明和允許的作業 Amazon 支持 Lake Formation 許可 EMR

Apache Hudi

用於簡化增量數據處理和數據管道開發的開放表格格式。

有關支持的操作列表,請參閱 Apache Hodi 和 Lake Formation

Amazon 透過 Apache Hudi EMR 支援資料表、列、欄和儲存格層級的存取控制。

Apache Iceberg

一種開放式表格格式,可將大型檔案集合當作資料表來管理。

有關支持的操作列表,請參閱 Apache 冰山和 Lake Formation

Amazon 通過 Apache Iceberg EMR 支持表,行,列和單元級訪問控制。

Linux Foundation Delta Lake

Delta 湖是一個開放原始碼專案,可協助實作通常在 Amazon S3 或 Hadoop 分散式檔案系統 (HDFS) 上建置的現代化資料湖架構。

有關支持的操作列表,請參閱三角洲湖泊和 Lake Formation

Amazon 透過 Delta Lake 資料表EMR支援資料表、資料列、欄和儲存格層級存取控制。

其他資源