使用 AWS Glue 分區索引和篩選優化查詢 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS Glue 分區索引和篩選優化查詢

當 Athena 查詢已分割的資料表時,會擷取和篩選可用資料表分割區至與您的查詢相關的子集。隨著新資料和分割區的增加,處理分割區需要更長的時間,執行查詢的時間可能會增加。如果您有一個具有大量分割區的資料表,並且分割區的數量隨著時間的推移而增加,請考慮使用 AWS Glue 分割區索引和篩選。分割區索引允許 Athena 最佳化分割區處理,並改善高度已分割的資料表的查詢效能。在資料表屬性中設定分割區篩選,一共有兩個步驟:

  1. 在 AWS Glue建立分割區索引。

  2. 啟用資料表的分割區篩選。

建立分割區索引

如需在中建立分割區索引的步驟 AWS Glue,請參閱開 AWS Glue 發人員指南中的使用分割區索引。如需中分割區索引的限制 AWS Glue,請參閱該頁面的關於分割區索引一節。

啟用分割區篩選

如需啟用資料表的分割區篩選,您必須在 AWS Glue設定新資料表屬性。如需如何在中設定表格屬性的步驟 AWS Glue,請參閱設定分割區投影頁面。當您在中編輯表格詳細資訊時 AWS Glue,請將下列索引鍵值配對新增至表格特性段落:

  • 對於 Key (索引鍵),新增 partition_filtering.enabled

  • 對於 Value (數值),新增 true

您可以將 partition_filtering.enabled 設定為 false,隨時停用此資料表上的分割區篩選。

完成上述步驟後,您可以返回 Athena 主控台以查詢資料。

如需有關使用分割區索引和篩選的詳細資訊,請參閱AWS 大數據部落格中的使用 AWS Glue Data Catalog 分區索引改善 Amazon Athena 查詢效能