單欄式儲存格式 - Amazon Athena

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

單欄式儲存格式

Apache 實木複合地板ORC 是針對快速檢索數據進行了優化,並在分析應用中 AWS 使用的柱狀存儲格式。

單欄式儲存格式具有以下特點,使其適用於 Athena:

  • 針對資料欄資料類型選擇壓縮演算法來壓縮欄,可以節省 Amazon S3 中的儲存空間,並在查詢處理期間降低磁碟空間和輸入/輸出。

  • Parquet 和 ORC 中的述詞下推,可讓 Athena 查詢僅擷取需要的區塊,進而提高查詢效能。當 Athena 查詢從您的資料中取得特定資料欄值時,它會使用資料區塊述詞 (例如上限/下限值) 的統計資料,判斷要讀取或略過該區塊。

  • Parquet 和 ORC 中的資料分割,可讓 Athena 將資料的讀取分割給多個讀取器,在其查詢處理期間增加平行處理。

若要將現有的原始資料從其他儲存格式轉換為 Parquet 或 ORC,您可以在 Athena 執行建立表格 AS SELECT (CTAS) 查詢,並將資料儲存格式指定為鑲木地板或 ORC,或使用爬蟲程式。 AWS Glue

在 Parquet 與 ORC 之間進行選擇

ORC (優化列單欄式) 和 Parquet 之間的選擇取決於您的特定使用需求。

Apache Parquet 提供高效的資料壓縮和編碼機制,非常適合用於執行複雜查詢和處理大量資料。為與 Apache Arrow 搭配使用,Parquet 進行了優化,因此如果您使用與 Arrow 相關的工具,Parquet 可能比較有利。

ORC 可以很有效率地存放 Hive 資料。ORC 檔案通常比 Parquet 檔案要小,因此 ORC 索引可以加快查詢速度。此外,ORC 支援複雜類型,例如結構、映射和清單。

在 Parquet 或 ORC 間選擇時,請考慮以下因素:

查詢效能 – 由於 Parquet 能夠支援更廣泛的查詢類型,因此,如果您打算執行複雜的查詢,則 Parquet 可能是更好的選擇。

複雜的資料類型 – 如果您使用的是複雜的資料類型,那麼 ORC 可能是更好的選擇,因為它能支援更廣泛的複雜資料類型。

檔案大小 – 如果需要考慮磁碟空間,ORC 通常可產生較小的檔案,進而降低儲存成本。

壓縮 – Parquet 和 ORC 均可提供良好的壓縮,但最適合您的最佳格式主要取決於您的特定使用案例。

演進 – Parquet 和 ORC 均可支援支持結構描述變化,這意味著您可以隨時間新增、刪除或修改資料欄。

對於大數據應用程式來說,Parquet 和 ORC 都是不錯的選擇,但在選擇之前,請考慮您的案例需求。您可能希望對資料和查詢執行基準測試,以查看哪種格式更適合您的使用案例。