定義AWS雲端上資料湖層的 S3 儲存貯體和路徑名稱 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

定義AWS雲端上資料湖層的 S3 儲存貯體和路徑名稱

伊莎貝爾 Imacseng, 塞繆爾·施密特, 和安德烈斯·坎托, Amazon Web Services (AWS)

2021 年十一月 (文件歷史)

本指南可協助您在 Amazon Web Services (Amazon S3) 中建立一致的命名標準。AWS本指南針對 S3 儲存貯體和路徑的命名標準可協助您改善資料湖中的控管和可觀察性、依資料層識別成本AWS 帳戶,並提供命名AWS Identity and Access Management (IAM) 角色和政策的方法。

我們建議您在資料湖中至少使用三個資料層,並且每個層都使用個別的 S3 儲存貯體。但是,某些使用案例可能需要額外的 S3 儲存貯體和資料層,具體取決於您產生和存放的資料類型。例如,如果您存放敏感資料,建議您使用 landing zone 資料層和單獨的 S3 儲存貯體。下列清單說明資料湖的三個建議資料層:

  • 原始資料層 — 包含原始資料,是最初擷取資料的層級。如果可能,建議您保留原始檔案格式,並在 S3 儲存貯體中開啟版本控制。

  • 階段資料層 — 包含針對消費最佳化的中繼處理資料 (例如 CSV 至 Apache Parquet 轉換的原始檔案或資料轉換)。AWS Glue工作會從原始圖層讀取檔案並驗證資料。然後,AWS Glue工作會將資料儲存在 Apache Parquet 格式的檔案中,而中繼資料會儲存在AWS Glue資料目錄的表格中。

  • 分析資料層 — 以消費就緒格式 (例如 Apache Parquet) 包含特定使用案例的彙總資料。

本指南的建議是根據作者在使用無伺服器資料湖架構 (SDLF) 實作資料湖方面的經驗,適用於想要在中設置資料湖的資料架構師、資料工程師或解決方案架構師AWS 雲端。但是,您必須確保調整本指南的方法以符合組織的政策和要求。

本指南涵蓋蓋蓋下列各節:

目標業務結果

在AWS雲端上的資料湖中實作 S3 儲存貯體和路徑的命名標準之後,您應該期待下列五個結果:

  • 改善資料湖中的控管和可觀察性。

  • AWS 帳戶透過使用 S3 儲存貯體名稱中的相關AWS帳戶 ID 以及使用 S3 儲存貯體的成本分配標籤,提高對個人整體成本的可見度。

  • 使用基於圖層的版本控制和基於路徑的生命週期策略,更具成本效益的數據

  • 符合資料遮罩和資料加密的安全性需求。

  • 透過增強開發人員對基礎資料儲存體AWS 區域和AWS 帳戶的可見性,簡化資料來源追蹤。