選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

使用 AWS Glue 搭配 AWS Lake Formation 進行精細存取控制

焦點模式
使用 AWS Glue 搭配 AWS Lake Formation 進行精細存取控制 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

概觀

使用 AWS Glue 5.0 版和更新版本,您可以利用 AWS Lake Formation 對 S3 支援的 Data Catalog 資料表套用精細存取控制。此功能可讓您設定 的資料表、資料列、資料欄和儲存格層級存取控制 read AWS Glue for Apache Spark 任務中的查詢。請參閱下列各節,進一步了解 Lake Formation 以及如何搭配 Glue AWS 使用。

將 AWS Glue 與 搭配使用 AWS Lake Formation 會產生額外費用。

Glue AWS 如何使用 AWS Lake Formation

將 AWS Glue 與 Lake Formation 搭配使用可讓您在每個 Spark 任務上強制執行一層許可,以在 Glue 執行任務時套用 Lake Formation AWS 許可控制。 AWS Glue 使用 Spark 資源描述檔來建立兩個描述檔,以有效地執行任務。使用者設定檔會執行使用者提供的程式碼,而系統設定檔則會強制執行 Lake Formation 政策。如需詳細資訊,請參閱什麼是 AWS Lake Formation考量和限制

每個已啟用 Lake Formation 的任務都會使用兩個 Spark 驅動程式,一個用於使用者設定檔,另一個用於系統設定檔。

以下是 Glue AWS 如何存取 Lake Formation 安全政策所保護資料的高階概觀。

圖表顯示精細存取控制如何與 Glue AWS 搭配使用 StartJobRun API。
  1. 使用者在已啟用 AWS Lake Formation 的 Glue AWS 任務StartJobRunAPI上呼叫 。

  2. AWS Glue 會將任務傳送給使用者驅動程式,並在使用者設定檔中執行任務。使用者驅動程式會執行精簡版本的 Spark,無法啟動任務、請求執行器、存取 S3 或 Glue Catalog。它會建置任務計畫。

  3. AWS Glue 會設定第二個名為系統驅動程式的驅動程式,並在系統設定檔中執行它 (具有特殊權限身分)。 AWS Glue 會在兩個驅動程式之間設定加密的TLS頻道以進行通訊。使用者驅動程式使用 頻道將任務計劃傳送至系統驅動程式。系統驅動程式不會執行使用者提交的程式碼。它執行完整的 Spark,並與 S3 和 Data Catalog 通訊以進行資料存取。它請求執行器並將任務計畫編譯為一系列執行階段。

  4. AWS 然後,Glue 會使用使用者驅動程式或系統驅動程式在執行器上執行階段。任何階段的使用者程式碼都只會在使用者設定檔執行器上執行。

  5. 從受 或 AWS Lake Formation 套用安全篩選條件的 Data Catalog 資料表讀取資料的階段,會委派給系統執行者。

任務執行時間角色IAM許可

Lake Formation 許可控制對 AWS Glue Data Catalog 資源、Amazon S3 位置和這些位置基礎資料的存取。 IAM許可控制對 Lake Formation 和 AWS Glue APIs和資源的存取。雖然您可能擁有 Lake Formation 許可,可存取 Data Catalog (SELECT) 中的資料表,但如果您沒有操作的IAM許可,您的glue:Get*API操作會失敗。

下列範例政策說明如何提供存取 S3 中指令碼的IAM許可、將日誌上傳至 S3、 AWS Glue API許可,以及存取 Lake Formation 的許可。

{ "Version": "2012-10-17", "Statement": [ { "Sid": "ScriptAccess", "Effect": "Allow", "Action": [ "s3:GetObject", "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::*.amzn-s3-demo-bucket/scripts", "arn:aws:s3:::*.amzn-s3-demo-bucket/*" ] }, { "Sid": "LoggingAccess", "Effect": "Allow", "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket/logs/*" ] }, { "Sid": "GlueCatalogAccess", "Effect": "Allow", "Action": [ "glue:Get*", "glue:Create*", "glue:Update*" ], "Resource": ["*"] }, { "Sid": "LakeFormationAccess", "Effect": "Allow", "Action": [ "lakeformation:GetDataAccess" ], "Resource": ["*"] } ] }

設定任務執行時間角色的 Lake Formation 許可

首先,向 Lake Formation 註冊 Hive 資料表的位置。然後在所需資料表上建立任務執行期角色的許可。如需 Lake Formation 的詳細資訊,請參閱《 AWS Lake Formation 開發人員指南》中的什麼是 AWS Lake Formation?

設定 Lake Formation 許可後,您可以在 AWS Glue 上提交 Spark 任務。

提交任務執行

完成 Lake Formation 授予的設定後,您可以在 Glue 上提交 Spark AWS 任務。若要執行 Iceberg 任務,您必須提供下列 Spark 組態。若要透過 Glue 任務參數設定 ,請放置下列參數:

  • 金鑰:

    --conf
  • 值:

    spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=<S3_DATA_LOCATION> --conf spark.sql.catalog.spark_catalog.glue.account-id=<ACCOUNT_ID> --conf spark.sql.catalog.spark_catalog.client.region=<REGION> --conf spark.sql.catalog.spark_catalog.glue.endpoint=https://glue.<REGION>.amazonaws.com

開放資料表格式支援

AWS Glue 5.0 版或更新版本包括支援以 Lake Formation 為基礎的精細存取控制。 AWS Glue 支援 Hive 和 Iceberg 資料表類型。下表說明所有支援的操作。

作業 Hive Iceberg
DDL 命令 僅具有IAM角色許可 僅具有IAM角色許可
增量查詢 不適用 完全支援
時間歷程查詢 不適用於此資料表格式 完全支援
中繼資料表 不適用於此資料表格式 支援,但某些資料表會隱藏。如需詳細資訊,請參閱考量事項和限制
DML INSERT 僅具有 IAM 許可 僅具有 IAM 許可
DML UPDATE 不適用於此資料表格式 僅具有 IAM 許可
DML DELETE 不適用於此資料表格式 僅具有 IAM 許可
讀取操作 完全支援 完全支援
預存程序 不適用 支援 register_table和 的例外狀況migrate。如需詳細資訊,請參閱考量事項和限制

下一個主題:

考量事項

上一個主題:

故障診斷
隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。