本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Lake Formation 搭配 使用 AWS Glue
資料工程師和 DevOps 專業人員 AWS Glue 搭配擷取、轉換和載入 (ETL) 搭配 Apache Spark 使用,在 Amazon S3 中的資料集上執行轉換,並將轉換的資料載入資料湖和資料倉儲,以進行分析、機器學習和應用程式開發。對於在 Amazon S3 中存取相同資料集的不同團隊,必須根據其角色授予和限制許可。
AWS Lake Formation 已建置 AWS Glue,服務會以下列方式互動:
-
Lake Formation 並AWS Glue共用相同的資料目錄。
-
下列 Lake Formation 主控台功能會叫用 AWS Glue主控台:
-
任務 – 如需詳細資訊,請參閱《 AWS Glue 開發人員指南》中的新增任務。
-
爬蟲程式 – 如需詳細資訊,請參閱《 AWS Glue 開發人員指南》中的使用爬蟲程式編製資料表。
-
-
使用 Lake Formation 藍圖時產生的工作流程是AWS Glue工作流程。您可以在 Lake Formation 主控台和AWS Glue主控台中檢視和管理這些工作流程。
-
Lake Formation 提供機器學習轉換,並以 AWS Glue API 操作為基礎。您可以在 AWS Glue主控台上建立和管理機器學習轉換。如需詳細資訊,請參閱《 AWS Glue 開發人員指南》中的Machine Learning轉換。
您可以使用 Lake Formation 精細存取控制來管理現有的 Data Catalog 資源和 Amazon S3 資料位置。
注意
AWS Glue 5.0 或更高版本支援對由 S3 支援的 Iceberg 和 Hive 資料表進行精細存取控制。此功能可讓您設定 Apache Spark 任務中讀取查詢 AWS Glue 的資料表、資料列、資料欄和儲存格層級存取控制。
支援交易資料表類型
套用 Lake Formation 許可可讓您保護 Amazon S3 型資料湖中的交易資料。下表列出 AWS Glue 和 Lake Formation 許可中支援的交易資料表格式。Lake Formation 會強制執行這些 AWS Glue 操作許可。
資料表格式 | 描述和允許的操作 | 中支援的 Lake Formation 許可 AWS Glue |
---|---|---|
Apache Hudi |
用於簡化增量資料處理和資料管道開發的開放資料表格式。 如需範例,請參閱在 中使用 Hudi 架構 AWS Glue。 |
Hudi 資料表可使用資料表層級許可。 如需詳細資訊,請參閱限制。 |
Apache Iceberg |
開放的資料表格式,可將大型檔案集合管理為資料表。 如需範例,請參閱在 中使用 Iceberg 架構 AWS Glue。 |
AWS Glue 5.0 版和更新版本可讓您設定 Iceberg 資料表 AWS Glue Apache Spark 任務內讀取查詢的資料表、資料列、資料欄和儲存格層級存取控制。 如需詳細資訊,請參閱限制。 |
Linux Foundation Delta Lake |
Delta Lake 是一項開放原始碼專案,可協助實作常見於 Amazon S3 或 Hadoop 分散式檔案系統 (HDFS) 的現代資料湖架構。 如需範例,請參閱在 中使用 Delta Lake 架構 AWS Glue。 |
資料表層級許可可用於 Delta Lake 資料表。 如需詳細資訊,請參閱限制。 |
其他資源
部落格文章和儲存庫
-
AWS Cloudformation 範本和 pyspark 程式碼範例
的儲存庫,用於使用 AWS Glue、Apache Hudi 和 Amazon S3 分析串流資料。