本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 AWS Glue 分區索引和篩選優化查詢
當 Athena 查詢已分割的資料表時,會擷取和篩選可用資料表分割區至與您的查詢相關的子集。隨著新資料和分割區的增加,處理分割區需要更長的時間,執行查詢的時間可能會增加。如果您有一個具有大量分割區的資料表,並且分割區的數量隨著時間的推移而增加,請考慮使用 AWS Glue 分割區索引和篩選。分割區索引允許 Athena 最佳化分割區處理,並改善高度已分割的資料表的查詢效能。在資料表屬性中設定分割區篩選,一共有兩個步驟:
-
在 AWS Glue建立分割區索引。
-
啟用資料表的分割區篩選。
建立分割區索引
如需在中建立分割區索引的步驟 AWS Glue,請參閱開 AWS Glue 發人員指南中的使用分割區索引。如需中分割區索引的限制 AWS Glue,請參閱該頁面的關於分割區索引一節。
啟用分割區篩選
如需啟用資料表的分割區篩選,您必須在 AWS Glue設定新資料表屬性。如需如何在中設定表格屬性的步驟 AWS Glue,請參閱設定分割區投影頁面。當您在中編輯表格詳細資訊時 AWS Glue,請將下列索引鍵值配對新增至表格特性段落:
-
對於 Key (索引鍵),新增
partition_filtering.enabled
。 -
對於 Value (數值),新增
true
您可以將 partition_filtering.enabled
設定為 false
,隨時停用此資料表上的分割區篩選。
完成上述步驟後,您可以返回 Athena 主控台以查詢資料。
如需有關使用分割區索引和篩選的詳細資訊,請參閱AWS 大數據部落格中的使用 AWS Glue Data Catalog 分區索引改善 Amazon Athena 查詢效能