本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Lake Formation 術語
以下是您將在本指南中遇到的一些重要術語。
資料湖
資料湖是儲存在 Amazon S3 中的持久性資料,並使用 Data Catalog 由 Lake Formation 管理。資料湖通常會存放下列項目:
-
結構化和非結構化資料
-
原始資料和轉換的資料
若要讓 Amazon S3 路徑位於資料湖中,則必須向 Lake Formation 註冊。
資料存取
Lake Formation 透過增強 AWS Identity and Access Management (IAM) 政策的新授予/撤銷許可模型,提供安全且精細的資料存取。
分析師和資料科學家可以使用 AWS 分析和機器學習服務的完整產品組合來存取資料,例如 Amazon Athena 。設定的 Lake Formation 安全政策有助於確保使用者只能存取他們有權存取的資料。
混合存取模式
Hyrbid 存取模式可讓您使用 Lake Formation 許可和 Amazon S3 許可來保護IAM和存取目錄資料。混合存取模式可讓資料管理員選擇性地和增量加入 Lake Formation 許可,一次專注於一個資料湖使用案例。
藍圖
藍圖是資料管理範本,可讓您輕鬆地將資料擷取到資料湖中。Lake Formation 提供數個藍圖,每個藍圖都用於預先定義的來源類型,例如關聯式資料庫或 AWS CloudTrail 日誌。從藍圖中,您可以建立工作流程。工作流程包含 AWS Glue 爬蟲程式、任務和觸發程序,這些觸發程序是用來協調資料的載入和更新。藍圖會將資料來源、資料目標和排程作為輸入,以設定工作流程。
工作流程
工作流程是一組相關 的容器 AWS Glue 任務、爬蟲程式和觸發程序。您可以在 Lake Formation 中建立工作流程,並在 中執行 AWS Glue 服務。Lake Formation 可以單一實體追蹤工作流程的狀態。
當您定義工作流程時,請選取其基礎的藍圖。然後,您可以視需要或排程執行工作流程。
您在 Lake Formation 中建立的工作流程可見於 AWS Glue 主控台作為定向非循環圖形 (DAG)。使用 DAG,您可以追蹤工作流程的進度並執行疑難排解。
Data Catalog
Data Catalog 是您的持久中繼資料存放區。這是一項受管服務,可讓您以與在 Apache Hive 中繼存放區相同的方式,在 AWS 雲端中儲存、註釋和共用中繼資料。它提供統一的儲存庫,其中不同的系統可以儲存和尋找中繼資料,以追蹤資料孤島中的資料,然後使用該中繼資料來查詢和轉換資料。Lake Formation 使用 AWS Glue Data Catalog 可儲存有關資料湖、資料來源、轉換和目標的中繼資料。
關於資料來源和目標的中繼資料採用資料庫和資料表的形式。資料表存放結構描述資訊、位置資訊等。資料庫是資料表的集合。Lake Formation 提供許可階層,以控制對 Data Catalog 中資料庫和資料表的存取。
每個 AWS 帳戶每個 AWS 區域都有一個資料目錄。
基礎資料
基礎資料是指資料目錄資料表指向的資料湖內的來源資料或資料。
Principal
委託人是 AWS Identity and Access Management (IAM) 使用者或角色或 Active Directory 使用者。
Data lake 管理員
資料湖管理員是可授予任何 Data Catalog 資源或資料位置上任何主體 (包括自己) 的任何許可的主體。將 Data Lake 管理員指定為 Data Catalog 的第一個使用者。然後,此使用者可以將更精細的資源許可授予其他主體。
注意
IAM 管理使用者 - 具有 AdministratorAccess
AWS 受管政策的使用者 - 不是自動資料湖管理員。例如,除非已獲授予許可,否則他們無法授予目錄物件的 Lake Formation 許可。不過,他們可以使用 Lake Formation 主控台或 API 將自己指定為資料湖管理員。
如需資料湖管理員功能的相關資訊,請參閱 隱含 Lake Formation 權限。如需有關將使用者指定為資料湖管理員的資訊,請參閱 建立資料湖管理員。