本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用單欄式儲存格式
Apache 實木複合地板
單欄式儲存格式具有以下特點,使其適用於 Athena:
-
針對資料欄資料類型選擇壓縮演算法來壓縮欄,可以節省 Amazon S3 中的儲存空間,並在查詢處理期間降低磁碟空間和輸入/輸出。
-
在 Parquet 中述詞下推,ORC讓 Athena 查詢能夠僅擷取所需的區塊,進而改善查詢效能。當 Athena 查詢從您的資料中取得特定資料欄值時,它會使用資料區塊述詞 (例如上限/下限值) 的統計資料,判斷要讀取或略過該區塊。
-
在 Parquet 中分割資料,並ORC允許 Athena 將資料讀取分割給多個讀取器,並在查詢處理期間提高平行處理能力。
若要將現有的原始資料從其他儲存格式轉換為 ParquetORC,或者,您可以在 Athena 中執行 CREATETABLEAS SELECT (CTAS) 查詢,並將資料儲存格式指定為 Parquet 或ORC,或使用 AWS Glue 爬蟲程式。
在鑲木地板和 ORC
ORC(最佳化列欄) 和 Parquet 之間的選擇取決於您的特定使用需求。
Apache Parquet 提供高效的資料壓縮和編碼機制,非常適合用於執行複雜查詢和處理大量資料。為與 Apache Arrow
ORC提供了一種有效的方式來存儲蜂巢數據。ORC檔案通常比 Parquet 檔案小,ORC索引可以使查詢速度更快。此外,還ORC支持複雜類型,例如結構,映射和列表。
在拼花和之間進行選擇時ORC,請考慮以下幾點:
查詢效能 – 由於 Parquet 能夠支援更廣泛的查詢類型,因此,如果您打算執行複雜的查詢,則 Parquet 可能是更好的選擇。
複雜的數據類型 — 如果您使用的是複雜的數據類型,ORC可能是一個更好的選擇,因為它支持更廣泛的複雜數據類型。
檔案大小 — 如果需要考量磁碟空間,ORC通常會產生較小的檔案,進而降低儲存成本。
壓縮 — 實木複合地板並ORC提供良好的壓縮,但最佳格式可以取決於您的具體用例。
Evolution-實木複合地板和ORC支持模式演變,這意味著您可以隨著時間的推移添加,刪除或修改列。
實木複合地板和ORC都是大數據應用程序的好選擇,但在選擇之前考慮您的場景的要求。您可能希望對資料和查詢執行基準測試,以查看哪種格式更適合您的使用案例。
轉換為單欄格式
可輕鬆地將來源資料 (例如JSON或CSV轉換為單欄格式) 的選項,包括使用 CREATETABLEAS 查詢或在中執行作業。 AWS Glue
-
您可以使用
CREATE TABLE AS
(CTAS)查詢將數據轉換為實木複合地板或ORC在一個步驟中。如需範例,請參閱 CTAS查詢範例 頁面上的範例:將查詢結果寫為不同格式。 -
如需使用 Athena 來將資料從ETL轉換為實木地板CSV的詳細資訊,請參閱使用CTAS和用INSERTINTO於ETL和數據分析。
-
如需執行 AWS Glue 任務以將資CSV料轉換為 Parquet 的詳細資訊,請參閱 AWS 大數據部落格文章使用 AWS Glue 和 Amazon S3 建立資料湖基礎中的「將資料從CSV轉換為 Parquet 格式」一
節。 AWS Glue 支持使用相同的技術將CSV數據轉換為ORC,或將JSON數據轉換為實木複合地板或ORC.