AWS Lake Formation 搭配 Amazon Athena 使用 - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Lake Formation 搭配 Amazon Athena 使用

Amazon Athena 是一種無伺服器查詢服務,可協助您分析存放在 Amazon S3 中的結構化、半結構化和非結構化資料。您可以使用 Athena SQL查詢來自 CSV、、JSONParquet 和 Avro 資料格式的資料。Athena SQL也支援 Apache Hive Apache Hudi Apache Iceberg 等資料表格式。Athena 與 整合 AWS Glue Data Catalog ,以將資料集的中繼資料儲存在 Amazon S3 中。Athena 可以使用 Lake Formation 來定義和維護這些資料集的存取控制政策。

以下是一些常見的使用案例,您可以在其中將 Lake Formation 與 Athena 搭配使用。

  • 使用 Lake Formation 許可從 Athena 存取 Data Catalog 資源 (資料庫和資料表)。您可以使用具名資源方法或 LF 標籤來定義資料庫和資料表的許可。如需詳細資訊,請參閱:

    注意

    Lake Formation 許可僅適用於使用 Athena SQL查詢來自 Amazon S3 的來源資料和 Data Catalog 中的中繼資料。

    Athena Spark 不支援使用 Lake Formation 許可查詢資料目錄資料表。Lake Formation 許可支援資料庫和資料表上的讀取和寫入操作。

    注意

    當您使用 LF 標籤管理 Data Catalog 資源的許可時,無法套用資料篩選條件。

  • 透過使用 來授予資料欄、資料列和儲存格層級的許可,Lake Formation 中的資料篩選條件以保護 Amazon S3 資料湖中的資料表,藉此控制查詢結果。請參閱 Amazon Athena 使用者指南中的分割區投影限制

  • 執行聯合查詢時,對 SAML型 Athena 使用者可用的資料強制執行精細存取控制。

    Athena JDBC和ODBC驅動程式支援使用 SAML型 Identity Provider (IdP 設定對資料來源的聯合存取。使用與 Lake Formation QuickSight 整合的 Amazon 搭配現有IAM角色或SAML使用者或群組,將 Athena 查詢結果視覺化。

    注意

    SAML 只有當您使用 JDBC或 ODBC驅動程式向 Athena 提交查詢時,使用者和群組的 Lake Formation 許可才會套用。

    如需詳細資訊,請參閱使用 Lake Formation 和 Athena JDBC和 ODBC 驅動程式聯合存取 Athena。

    注意

    目前,下列區域不支援授權存取 Lake Formation SAML 中的身分:

    • 中東 (巴林) – me-south-1

    • 亞太區域 (香港) – ap-east-1

    • 非洲 (開普敦) – af-south-1

    • 中國 (寧夏) – cn-northwest-1

    • 亞太區域 (大阪) - ap-northeast-3

  • 使用 Lake Formation 中的跨帳戶資料共用 查詢另一個帳戶中的資料表。

注意

如需將 Lake Formation 許可用於 時限制的詳細資訊Views,請參閱考量和限制

支援交易資料表格式

套用 Lake Formation 許可可讓您保護 Amazon S3 型資料湖中的交易資料。下表列出 Athena 和 Lake Formation 許可中支援的交易資料表格式。Lake Formation 會在 Athena 使用者執行查詢時強制執行這些許可。

資料表格式 描述和允許的操作 Athena 中支援的 Lake Formation 許可

Apache Hudi

用於簡化增量資料處理和資料管道開發的格式。

Athena 支援在 Amazon S3 資料集上使用 Apache Hudi 資料表格式建立和讀取操作,適用於寫入時複製 CoW)讀取時合併 MoR) Hudi 資料表類型。Athena 不支援 Hudi 資料表上的寫入操作。

使用 Athena 查詢 Hudi 資料集

使用 Lake Formation 中的資料篩選和儲存格層級安全性 保護 Hudi 資料表,使用資料表、資料欄、資料列和儲存格層級許可。

Apache Iceberg

一種開放的資料表格式,可管理大量檔案集合作為資料表,並支援現代分析資料湖操作,例如記錄層級插入、更新、刪除和時間移動查詢。

如需 Athena 支援 Iceberg 資料表的詳細資訊,請參閱使用 Iceberg 資料表

支援資料表、資料欄、資料列和儲存格層級許可。目前,Lake Formation 不支援管理 Open OPTIMIZE Table 格式資料表上的寫入操作許可VACUUM,例如 MERGEUPDATE和 。

Linux Foundation Delta Lake

Delta Lake 是一項開放原始碼專案,可協助實作 Amazon S3 或 Hadoop 分散式檔案系統 () 上常見的現代資料湖架構HDFS。

Athena 支援 AWS Glue Data Catalog 從 Delta Lake 資料表使用以符號連結為基礎的資訊清單資料表定義在 上建立的 Delta lake 資料表。

如需詳細資訊,請參閱使用 AWS Glue 爬蟲程式 的 Crawl Delta Lake 資料表

Athena (引擎版本 3) 支援讀取原生 Delta Lake 資料表。

如需詳細資訊,請參閱使用 AWS Glue 爬蟲程式引入原生 Delta Lake 資料表支援

symlink 資料表和原生 Delta Lake 資料表支援資料表、資料欄、資料列和儲存格層級許可。

其他資源