壓實最佳化 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

壓實最佳化

使用開放式表格格式 (例如 Apache 冰山) 的 Amazon S3 資料湖將資料存放為 S3 物件。在資料湖表中有數千個小型 Amazon S3 物件,可增加中繼資料額外負荷並影響讀取效能。 AWS Glue Data Catalog 為 Iceberg 表提供管理壓實,將小物件壓縮成更大的物件,以獲得更好的讀取效能 AWS 分析服務,例如 Amazon Athena 和 AmazonEMR,和 AWS Glue ETL工作。數據目錄執行壓實而不與並發查詢干擾,並支持僅針對實木地板格式表壓實。

資料表最佳化工具會持續監視資料表分割區,並在檔案數量和檔案大小超過閾值時啟動壓縮程序。

在「資料目錄」中,如果資料表或資料表中的任何分割區有五個以上的檔案,每個檔案都小於目標檔案大小的 75% (目前設定為 64MB),則壓縮程序會開始並繼續進行。

如需支援的資料類型、壓縮格式和限制,請參閱受管理資料壓縮的支援格式和限制