AWS Lake Formation 搭配 Amazon 使用 EMR - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Lake Formation 搭配 Amazon 使用 EMR

Amazon EMR 是彈性 AWS 的受管叢集平台,您可以在支援的大數據架構上執行任何自訂程式碼,例如 Hadoop Map-Reduce、Spark、Hive、Presto 等。組織也會使用 Amazon 在高度分散式叢集上執行EMR批次和串流資料處理應用程式。在 Amazon 上使用 Apache SparkEMR,您可以在由 Lake Formation 管理許可的資料庫和資料表上執行資料轉換和自訂程式碼。

部署 Amazon 有三個選項EMR:

  • EMR 在 上 EC2

  • EMR 無伺服器

  • Amazon EMR on EKS

如需詳細資訊,請參閱將 Amazon EMR與 Lake Formation 整合,或搭配 使用 EMR Serverless AWS Lake Formation 進行精細存取控制

支援交易資料表格式

當您使用 Spark 讀取和寫入資料時,Amazon EMR6.15.0 版和更新版本包含對 Apache Hudi Apache IcebergDelta Lake 資料表格式的 Lake Formation 資料表、資料列、資料欄和儲存格層級存取控制許可的支援SQL。

如需限制,請參閱EMR使用 Lake Formation 的 Amazon 考量

支援的資料表格式
資料表格式 描述和允許的操作 Amazon 中支援的 Lake Formation 許可 EMR

Apache Hudi

用於簡化增量資料處理和資料管道開發的開放資料表格式。

如需支援的操作清單,請參閱 Apache Hudi 和 Lake Formation

Amazon EMR支援 Apache Hudi 的資料表、資料列、資料欄和儲存格層級存取控制。

Apache Iceberg

以資料表形式管理大量檔案集合的開放資料表格式。

如需支援的操作清單,請參閱 Apache Iceberg 和 Lake Formation

Amazon EMR支援 Apache Iceberg 的資料表、資料列、資料欄和儲存格層級存取控制。

Linux Foundation Delta Lake

Delta Lake 是一項開放原始碼專案,可協助實作 Amazon S3 或 Hadoop 分散式檔案系統 () 上常見的現代資料湖架構HDFS。

如需支援的操作清單,請參閱 Delta Lake 和 Lake Formation

Amazon EMR支援使用 Delta Lake 資料表進行資料表、資料列、資料欄和儲存格層級存取控制。

其他資源