什麼是 AWS Lake Formation? - AWS Lake Formation

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是 AWS Lake Formation?

歡迎使用開 AWS Lake Formation 發人員指南。

AWS Lake Formation 協助您集中控管、保護並全球共用資料,以進行分析和機器學習。使用 Lake Formation,您可以在 Amazon Simple Storage Service (Amazon S3) 及其中的中 AWS Glue Data Catalog繼資料上管理資料湖資料的精細存取控制。

Lake Formation 提供了自己的許可模型,用於增強 IAM 許可模型。Lake Formation 權限模型可透過簡單的授權或撤銷機制,對儲存在資料湖中的資料進行細粒度存取,就像關聯式資料庫管理系統 (RDBMS) 一樣。使用跨 AWS 分析和機器學習服務 (包括亞馬遜雅典娜、Amazon Amazon Redshift Spectrum、Amazon EMR 和) 的欄、列和儲存格層級的精細控制來強制執行 Lake Formation 許可。 Amazon QuickSight AWS Glue

Lake Formation 混合存取模式 AWS Glue Data Catalog 可讓您使用 Amazon S3 的 Lake Formation 許可和 IAM 許可政策和 AWS Glue 動作來保護和存取已編目的資料。透過混合式存取模式,資料管理員可以選擇性地逐步上載 Lake Formation 權限,一次專注於一個資料湖使用案例。

Lake Formation 也可讓您在內部和外部跨多個 AWS 組織共用資料 AWS 帳戶,或直接與另一個帳戶中的 IAM 主體共用資料,以提供對中 AWS Glue Data Catalog 繼資料和基礎資料的精細存取權。

Lake Formation 功能

Lake Formation 可幫助您打破資料孤島,並將不同類型的結構化和非結構化資料合併到集中式儲存庫中。首先,識別 Amazon S3 中的現有資料存放區或關聯式和 NoSQL 資料庫,然後將資料移到資料湖中。然後編目、編目並準備資料以進行分析。接下來,透過選擇的分析服務,為您的使用者提供對資料的安全自助存取。

資料擷取與管理

從已存在的資料庫匯入資料 AWS

一旦您指定現有資料庫的位置並提供存取認證,Lake Formation 就會讀取資料及其中繼資料 (結構描述) 以瞭解資料來源的內容。然後,它會將資料匯入新的資料湖,並將中繼資料記錄在中央目錄中。使用 Lake Formation,您可以從在 Amazon RDS 中執行或託管在 Amazon EC2 中執行的 MySQL、PostgreSQL、SQL 伺服器、MariaDB 和甲骨文資料庫匯入資料。支援大量和增量資料載入。

從其他外部來源匯入資料

您可以使用 Lake Formation,透過與 Java 資料庫連線 (JDBC) 連線,從內部部署資料庫移動資料。識別您的目標來源並在主控台中提供存取認證,Lake Formation 會讀取您的資料並將其載入資料湖。若要從上述資料庫以外的資料庫匯入資料,您可以使 AWS Glue用建立自訂 ETL 工作。

編目和標記您的資料

您可以使用 AWS Glue 檢索器讀取 Amazon S3 中的資料,並擷取資料庫和表格結構描述,並將該資料存放在可搜尋 AWS Glue Data Catalog範圍內。然後,使用 Lake Formation 基於 Lake Formation 標籤的訪問控制 (TBAC) 來管理資料庫、資料表和資料行的權限。若要取得有關將表格加入至資料目錄的更多資訊,請參閱建立資料目錄表格和資料庫

安全性管理

定義和管理存取控制

Lake Formation 提供單一位置來管理資料湖中資料的存取控制。您可以定義安全性原則,以限制資料庫、表格、欄、列和儲存格層級的資料存取權。這些政策適用於 IAM 使用者和角色,以及透過外部身分識別提供者聯合時的使用者和群組。您可以使用精細的控制來存取由 Amazon Redshift Spectrum、Athena、 AWS Glue ETL 和 Amazon EMR 中的 Lake Formation 保護的資料 (適用於 Apache Spark)。每當您建立 IAM 身分時,請務必遵循 IAM 最佳實務。如需詳細資訊,請參閱 IAM 使用者指南中的安全性最佳做法

混合存取模式

Lake Formation m 混合存取模式提供了靈活性,可選擇性地啟用 AWS Glue Data Catalog. 透過混合式存取模式,您現在擁有一個增量路徑,可讓您為一組特定使用者設定 Lake Formation 權限,而不會中斷其他現有使用者或工作負載的權限原則。如需詳細資訊,請參閱 混合存取模式

實作稽核記錄

Lake Formation 提供全面的稽核記錄, CloudTrail 以監控存取並顯示是否符合集中定義的政策。您可以跨分析和機器學習服務稽核資料存取歷史記錄,這些服務會透過 Lake Formation 讀取資料湖中的資料。這可讓您查看哪些使用者或角色嘗試存取哪些資料、使用哪些服務以及何時存取。您可以使用 CloudTrail API 和主控台存取任何其他 CloudTrail 記錄檔的方式來存取稽核記錄。如需 CloudTrail 記錄檔的詳細資訊,請參閱使用記錄 AWS Lake Formation API 調用 AWS CloudTrail

列與儲存格層級安全性

Lake Formation 提供資料篩選器,可讓您限制對欄和列組合的存取。使用資料列和儲存格層級安全性來保護敏感資料,例如個人識別資訊 (PII)。如需列層級安全性的詳細資訊,請參閱。資料篩選概觀

標籤式存取控制

透過建立稱為 Lf-tags 的自訂標籤,使用 Lake Formation 標籤型存取控制來管理數百甚至數千個資料權限。您現在可以定義 LF 標籤,並將它們附加到資料庫、資料表或資料行。然後,跨分析、機器學習 (ML) 共用受控存取,以及擷取、轉換和載入 (ETL) 服務以供使用。LF 標籤可確保資料控管能夠輕鬆調整規模,方法是將數千個資源的原則定義取代為幾個邏輯標籤。Lake Formation 針對此中繼資料提供以文字為基礎的搜尋,因此您的使用者可以快速找到他們需要分析的資料。

跨帳戶存取

Lake Formation 權限管理功能可透過集中式方法簡化跨多個 AWS 帳戶的分散式資料湖的保護和管理,為資料目錄和 Amazon S3 位置提供精細的存取控制。如需詳細資訊,請參閱 Lake Formation 的跨賬戶數據共享

資料共用

資料共用功能可讓您對存放在 Amazon Redshift 等不同資料來源中的資料集設定許可,而無需將資料或中繼資料移轉至 Amazon S3 或 AWS Glue Data Catalog。您可以使用以下方法在 Lake Formation 中共享數據:

有關更多信息,請參閱 Lake Formation 中的數據共享

  • 將湖泊形成與 Amazon Redshift 資料共用整合 — 使用 Lake Formation 集中管理 Amazon Redshift 資料庫的資料庫、表格、欄和資料列層級存取權限,並限制使用者存取資料清單中的物件。

  • 連線 AWS Glue Data Catalog 至外部中繼存放區 — Connect AWS Glue Data Catalog 至外部中繼存放區,以使用 Lake Formation 管理 Amazon S3 中資料集的存取許可。不需要將中繼資料 AWS Glue Data Catalog 移轉至。

    如需更多資訊,請參閱管理使用外部中繼存放區之資料集的權限

  • 將湖泊形成與 AWS Data Exchange 整合 — Lake Formation 支援透過授權存取您的資料 AWS Data Exchange。如果您對 Lake Formation 資料的授權有興趣,請參閱AWS Data Exchange 使用者指南 AWS Data Exchange中的內

開始使用 Lake Formation

我們建議您從下列各節開始著手: