在 AWS Glue for Ray 中使用 Ray Core 和 Ray Data - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 AWS Glue for Ray 中使用 Ray Core 和 Ray Data

Ray 是透過在叢集中分發任務來縱向擴展 Python 指令碼的架構。您可以使用 Ray 作為各種問題的解決方案,因此 Ray 提供程式庫以最佳化特定任務。在 AWS Glue 中,我們著重於使用 Ray 轉換大型資料集。AWS Glue 提供 Ray Data 和部分 Ray Core 的支援,以協助執行此任務。

什麼是 Ray Core?

建立分發應用程式的第一步,即是識別與定義可同時執行的任務。Ray Core 包含部分的 Ray,可讓您用來定義能夠同時執行的任務。Ray 提供了參考與快速入門資訊,您可以使用這些資訊來學習其提供的工具。如需詳細資訊,請參閱 What is Ray Core?Ray Core Quick Start。如需有關有效定義可在 Ray 中同時執行之任務的詳細資訊,請參閱 Tips for first-time users

Ray 任務與執行者

在 AWS Glue for Ray 文件中,我們可參考任務執行者,其為 Ray 中的核心概念。

Ray 使用 Python 函數和類別作為分散式運算系統的建置區塊。就像 Python 函數和變數在類別中使用時會變為「方法」和「屬性」一樣,若在 Ray 中用於向工作者傳送程式碼,則函數會變為「任務」,且類別會變為「執行者」。您可依 @ray.remote 注釋,識別可能由 Ray 使用的函數和類別。

任務與執行者可供設定,其具有生命週期,且會在其生命週期中佔用運算資源。當您找到問題的根本原因時,引發錯誤的程式碼可以追溯至任務或執行者。因此,當您了解如何設定、監控或偵錯 AWS Glue for Ray 任務時,可能會出現這些術語。

若要開始了解如何有效使用任務和執行者來建置分發應用程式,請參閱 Ray 文件中的 Key Concepts

AWS Glue for Ray 中的 Ray Core

AWS Glue for Ray 環境可管理叢集的形成與擴展,以及收集和視覺化日誌。我們管理這些問題,因此會限制存取和支援在 Ray Core 中用來解決這些開放原始碼叢集問題的 API。

在受管 Ray2.4 執行期環境中,我們不支援以下項目:

什麼是 Ray Data?

當您連線至資料來源和目的地、處理資料集以及啟動常見轉換時,Ray Data 是使用 Ray 解決 Ray 資料集轉換問題的簡單方法。如需有關使用 Ray Data 的詳細資訊,請參閱 Ray 資料集:分散式資料預先處理

您可以使用 Ray Data 或其他工具來存取資料。如需有關在 Ray 中存取資料的詳細資訊,請參閱 連線至 Ray 任務中的資料

AWS Glue for Ray 中的 Ray Data

在受管 Ray2.4 執行期環境中,預設會支援並提供 Ray Data。如需有關所提供模組的詳細資訊,請參閱 Ray 任務隨附的模組