本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Glue 資料目錄最佳做法
本節涵蓋有效管理和使用 AWS Glue Data Catalog. 它強調實踐,例如有效的爬蟲使用,元數據組織,安全性,性能優化,自動化,數據控管以及與其他 AWS 服務的集成。
有效使用檢索器 — 定期執行檢索器,讓資料目錄 up-to-date 隨著資料來源的變更保持在一起。針對頻繁變更的資料來源使用增量編目,以提升效能。設定爬行者程式,以便在偵測到變更時自動新增分割區或更新結構描述。
組織和命名中繼資料表 — 為「資料目錄」中的資料庫和表格建立一致的命名慣例。將相關資料來源分組成邏輯資料庫或資料夾,以便更好地組織 使用描述性名稱來傳達每個表的目的和內容。
有效管理結構描述 — 利用 AWS Glue 編目器的結構描述推論功能。在套用結構描述變更之前,請先檢閱和更新結構描述變更,以避免 使用結構描述演進功能優雅地處理結構描述變更。
-
保護資料目錄 — 為資料目錄啟用靜態和傳輸中的資料加密。實作精細的存取控制原則,以限制對敏感資料的存取。定期稽核和檢閱資料目錄權限和活動記錄。
-
與其他 AWS 服務整合資料型錄使用資料目錄做為 Amazon Athena、Redshift 頻譜和 AWS Lake Formation服務的集中中繼資料層。利用 AWS Glue ETL 工作將資料轉換並載入到各種資料存放區,同時維護資料目錄中的中繼資料。
-
監視和最佳化效能資料目錄使 Amazon CloudWatch 用指標監視編目器和 ETL 工作的效能。對資料目錄中的大型資料集進行分割,以改善查詢效能。為經常存取的中繼資料實作效能最佳化。
-
使用 AWS Glue 文件和最佳做法資料型錄隨時更新定期查看 AWS Glue 文件和 AWS Glue 資源,以取得最新的更新、最佳做法和建議。參加 AWS Glue 網路研討會、研討會和其他活動,向專家學習並隨時瞭解新功能。