AWS Glue 對於火花和 AWS Glue 射線 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 對於火花和 AWS Glue 射線

AWS Glue 在阿帕奇星火(AWS Glue ETL),您可以使 PySpark 用編寫 Python 代碼來大規模處理數據。Spark 是解決此問題的常見解決方案,但若資料工程師的工作背景是以 Python 為主,可能會發現轉換不直觀。星火 DataFrame 模型不是無縫的「Pythonic」,它反映了它所建立的 Scala 語言和 Java 運行時。

在中 AWS Glue,您可以使用 Python 命令介面工作來執行原生 Python 資料整合。這些任務在單一 Amazon 執行個EC2體上執行,且受該執行個體的容量限制。這會限制您可以處理的資料輸送量,讓處理大數據時的維護成本變得昂貴。

AWS Glue 對於 Ray,您可以擴展 Python 工作負載,而無需對學習 Spark 進行大量投資。您可善用 Ray 表現更加出色的某些情況。您可以借助提供給您的選擇同時運用 Spark 和 Ray 的優勢。

AWS Glue ETL和 AWS Glue 雷是不同的下面,所以他們支持不同的功能。請查看文件判斷支援的功能。

雷是 AWS Glue 什麼?

Ray 是開放原始碼的分散式運算架構,可用於縱向擴展工作負載並專注處理 Python。如需有關 Ray 的詳細資訊,請參閱 Ray 網站。 AWS Glue Ray 工作和互動式工作階段可讓您在其中使用 Ray AWS Glue。

您可以使 AWS Glue 用 Ray 撰寫 Python 指令碼,以便在多台機器上 parallel 執行的運算。在 Ray 任務與互動式工作階段中,您可以使用熟悉的 Python 程式庫 (例如 pandas),讓您的工作流程易於撰寫和執行。如需有關 Ray 資料集的詳細資訊,請參閱 Ray 文件中的 Ray 資料集。如需有關 pandas 的詳細資訊,請參閱 Pandas 網站

當您使 AWS Glue 用 Ray 時,只需要幾行程式碼,就可以針對企業規模的大數據執行熊貓工作流程。您可以從 AWS Glue 主控台或建立 Ray 工作 AWS SDK。您也可以開啟 AWS Glue 互動式工作階段,在無伺服器 Ray 環境中執行程式碼。尚不支援中 AWS Glue Studio 的視覺化工作。

AWS Glue 對於 Ray 任務,您可以按時間表或回應來自 Amazon 的事件執行指令碼 EventBridge。工作會將記錄資訊和監控統計資料儲存在中 CloudWatch ,讓您瞭解指令碼的健全狀況和可靠性。如需 AWS Glue 工作系統的詳細資訊,請參閱在 AWS Glue 中使用 Ray 任務

Ray 會根據負載,將處理程序分配至一組機器叢集,藉此自動調整 Python 程式碼的擴展任務。這會改善某些工作負載的每美元效能。透過 Ray 工作,我們已將 auto 縮放功能建置到 AWS Glue 工作模型中,因此您可以充分利用此功能。Ray 工作在 AWS 引力子上執行,導致更高的整體價格表現。

除了節省成本,您還可以使用原生自動擴展功能來執行 Ray 任務負載,而無須耗費時間進行叢集維護、調整和管理。您可以開箱即用熟悉的開源庫,例如熊貓和熊貓。 AWS SDK這些程式庫可提高您在 AWS Glue for Ray 上進行開發時的反覆運算速度。當您使 AWS Glue 用 Ray 時,您將能夠快速開發並執行符合成本效益的資料整合工作負載。