本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用最新 AWS Glue 版本
我們建議使用最新 AWS Glue 版本。每個版本都內建了數個最佳化和升級,可能會自動改善工作效能。例如, AWS Glue 4.0 提供了以下新功能:
-
新的優化的阿帕奇星火 3.3.0 運行時- AWS Glue 4.0 建立在 Apache 的星火 3.3.0 運行時,帶來可比性能的改進,以開源星火。星火 3.3.0 運行時建立在許多來自星火 2.x 的創新。
-
增強的 Amazon Redshift 連接器 — AWS Glue 4.0 及更高版本為阿帕奇星火提供 Amazon Redshift 集成。整合建立在現有的開放原始碼連接器之上,並增強其效能和安全性。此整合可協助應用程式執行速度提高達 10 倍。如需詳細資訊,請參閱有關 Amazon Redshift 與 Apache Spark 整合的
部落格文章。 -
SIMD基於使用CSV和JSON數據的矢量化讀取執行 — 3.0 AWS Glue 版及更高版本添加了優化的讀取器,與基於行的讀取器相比,可以顯著加快整體作業性能。如需有關資CSV料的詳細資訊,請參閱使用向量化讀取器SIMDCSV最佳化讀取效能。如需有關資JSON料的詳細資訊,請參閱將向量化SIMDJSON讀取器搭配 Apache 箭頭資料欄格式使用。
每個 AWS Glue 版本都將包括此類升級,其中包括連接器,驅動程序和庫更新。如需詳細資訊,請參閱AWS Glue 版本和將 AWS Glue 工作移轉至 4.0 AWS Glue 版。