AWS Lake Formation 搭配 使用 AWS Glue - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Lake Formation 搭配 使用 AWS Glue

資料工程師和 DevOps 專業人員 AWS Glue 搭配擷取、轉換和載入 (ETL) 搭配 Apache Spark 使用,在 Amazon S3 中的資料集上執行轉換,並將轉換的資料載入資料湖和資料倉儲,以進行分析、機器學習和應用程式開發。對於在 Amazon S3 中存取相同資料集的不同團隊,必須根據其角色授予和限制許可。

AWS Lake Formation 是以 為基礎 AWS Glue,且服務會以下列方式互動:

  • Lake Formation 和 AWS Glue 共用相同的資料目錄。

  • 下列 Lake Formation 主控台功能會叫用 AWS Glue 主控台:

    • 任務 – 如需詳細資訊,請參閱 AWS Glue 開發人員指南 中的新增任務

    • Crawlers – 如需詳細資訊,請參閱 AWS Glue 開發人員指南 中的使用 Crawler 編製目錄

  • 使用 Lake Formation 藍圖時產生的工作流程為 AWS Glue 工作流程。您可以在 Lake Formation 主控台和 中檢視和管理這些工作流程 AWS Glue 主控台。

  • Lake Formation 提供機器學習轉換,並建置於 AWS Glue API 操作。您可以在 上建立和管理機器學習轉換 AWS Glue 主控台。如需詳細資訊,請參閱 AWS Glue 開發人員指南 中的Machine Learning轉換

您可以使用 Lake Formation 精細存取控制來管理現有的 Data Catalog 資源和 Amazon S3 資料位置。

注意

AWS Glue ETL 從基礎 Amazon S3 位置擷取資料時, 需要完整存取整個資料表。 AWS Glue ETL如果您在資料表上套用資料欄層級許可, 任務會失敗。

支援交易資料表類型

套用 Lake Formation 許可可讓您保護 Amazon S3 型資料湖中的交易資料。下表列出 AWS Glue 和 Lake Formation 許可中支援的交易資料表格式。Lake Formation 會強制執行這些 AWS Glue 操作許可。

支援的資料表格式
資料表格式 描述和允許的操作 中支援的 Lake Formation 許可 AWS Glue

Apache Hudi

用於簡化增量資料處理和資料管道開發的開放資料表格式。

如需範例,請參閱 中的使用 Hudi 架構 AWS Glue

Hudi 資料表具有資料表層級的許可。

如需詳細資訊,請參閱限制

Apache Iceberg

以資料表形式管理大量檔案集合的開放資料表格式。

如需範例,請參閱 中的使用 Iceberg 架構 AWS Glue

Iceberg 資料表具有資料表層級許可。

如需詳細資訊,請參閱限制

Linux Foundation Delta Lake

Delta Lake 是一項開放原始碼專案,可協助實作 Amazon S3 或 Hadoop 分散式檔案系統 () 上常見的現代資料湖架構HDFS。

如需範例,請參閱 中的使用 Delta Lake 架構 AWS Glue

Delta Lake 資料表具有資料表層級的許可。

如需詳細資訊,請參閱限制

其他資源