本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Lake Formation 搭配 Amazon 使用 EMR
Amazon EMR 是彈性 AWS 的受管叢集平台,您可以在支援的大數據架構上執行任何自訂程式碼,例如 Hadoop Map-Reduce、Spark、Hive、Presto 等。組織也會使用 Amazon 在高度分散式叢集上執行EMR批次和串流資料處理應用程式。在 Amazon 上使用 Apache SparkEMR,您可以在由 Lake Formation 管理許可的資料庫和資料表上執行資料轉換和自訂程式碼。
部署 Amazon 有三個選項EMR:
-
EMR 在 上 EC2
-
EMR 無伺服器
-
Amazon EMR on EKS
如需詳細資訊,請參閱將 Amazon EMR與 Lake Formation 整合,或搭配 使用 EMR Serverless AWS Lake Formation 進行精細存取控制
支援交易資料表格式
當您使用 Spark 讀取和寫入資料時,Amazon EMR6.15.0 版和更新版本包含對 Apache Hudi 、Apache Iceberg 和 Delta Lake
如需限制,請參閱EMR使用 Lake Formation 的 Amazon 考量。
資料表格式 | 描述和允許的操作 | Amazon 中支援的 Lake Formation 許可 EMR |
---|---|---|
Apache Hudi |
用於簡化增量資料處理和資料管道開發的開放資料表格式。 如需支援的操作清單,請參閱 Apache Hudi 和 Lake Formation 。 |
Amazon EMR支援 Apache Hudi 的資料表、資料列、資料欄和儲存格層級存取控制。 |
Apache Iceberg |
以資料表形式管理大量檔案集合的開放資料表格式。 如需支援的操作清單,請參閱 Apache Iceberg 和 Lake Formation 。 |
Amazon EMR支援 Apache Iceberg 的資料表、資料列、資料欄和儲存格層級存取控制。 |
Linux Foundation Delta Lake |
Delta Lake 是一項開放原始碼專案,可協助實作 Amazon S3 或 Hadoop 分散式檔案系統 () 上常見的現代資料湖架構HDFS。 如需支援的操作清單,請參閱 Delta Lake 和 Lake Formation 。 |
Amazon EMR支援使用 Delta Lake 資料表進行資料表、資料列、資料欄和儲存格層級存取控制。 |