Verwendung von Ray Core und Ray Data in AWS Glue für Ray - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwendung von Ray Core und Ray Data in AWS Glue für Ray

Ray ist ein Framework zum Skalieren von Python-Skripten durch die Verteilung der Arbeit über einen Cluster. Sie können Ray als Lösung für viele Arten von Problemen verwenden. Daher bietet Ray Bibliotheken zur Optimierung bestimmter Aufgaben. In AWS Glue konzentrieren wir uns auf die Verwendung von Ray zur Transformation großer Datenmengen. Um diese Aufgabe zu erleichtern, bietet AWS Glue Unterstützung für Ray Data und Teile von Ray Core.

Was ist Ray Core?

Der erste Schritt beim Erstellen einer verteilten Anwendung besteht darin, Arbeiten zu identifizieren und zu definieren, die gleichzeitig ausgeführt werden können. Ray Core enthält die Teile von Ray, die Sie zum Definieren von Aufgaben verwenden, die gleichzeitig ausgeführt werden können. Ray bietet Referenz- und Schnellstartinformationen, anhand derer Sie sich mit den bereitgestellten Tools vertraut machen können. Weitere Informationen finden Sie unter Was ist Ray Core? und Ray-Core-Schnellstart. Weitere Informationen zum effektiven Definieren gleichzeitiger Aufgaben in Ray finden Sie unter Tipps für Erstanwender.

Aufgaben und Akteure von Ray

In der Dokumentation zu AWS Glue für Ray beziehen wir uns auf Aufgaben und Akteure, die in Ray Kernkonzepte sind.

Ray verwendet Python-Funktionen und -Klassen als Bausteine eines verteilten Computersystems. Ähnlich wie Python-Funktionen und -Variablen zu „Methoden“ und „Attributen“ werden, wenn sie in einer Klasse verwendet werden, werden Funktionen zu „Aufgaben“ und Klassen zu „Akteuren“, wenn sie in Ray zum Senden von Code an Worker verwendet werden. Sie können Funktionen und Klassen, die von Ray verwendet werden könnten, anhand der @ray.remote-Anmerkung identifizieren.

Aufgaben und Akteure sind konfigurierbar, sie haben einen Lebenszyklus und beanspruchen während ihres gesamten Lebens Rechenressourcen. Code, der Fehler auslöst, kann auf eine Aufgabe oder einen Akteur zurückgeführt werden, wenn Sie die Grundursache von Problemen ermitteln. Möglicherweise tauchen diese Begriffe also auf, wenn Sie sich mit der Konfiguration, Überwachung oder Fehlersuche von AWS Glue-für-Ray-Aufträge vertraut machen.

Informationen zum effektiven Einsatz von Aufgaben und Akteuren zum Erstellen einer verteilten Anwendung finden Sie unter Schlüsselkonzepte in den Ray-Dokumenten.

Ray Core in AWS Glue für Ray

AWS Glue-für-Ray-Umgebungen verwalten die Cluster-Bildung und -skalierung sowie die Erfassung und Visualisierung von Protokollen. Da wir diese Bedenken berücksichtigen, schränken wir daher den Zugriff auf und die Unterstützung für die APIs in Ray Core ein, die zur Behebung dieser Probleme in einem Open-Source-Cluster verwendet würden.

In der verwalteten Ray2.4-Laufzeitumgebung unterstützen wir Folgendes nicht:

Was ist Ray Data?

Wenn Sie eine Verbindung zu Datenquellen und -zielen herstellen, Datensätze verarbeiten und allgemeine Transformationen initiieren, ist Ray Data eine unkomplizierte Methode für den Einsatz von Ray zur Lösung von Problemen bei der Transformation von Ray-Datensätzen. Weitere Informationen zur Verwendung von Ray Datafinden Sie unter Ray-Datensätze: Verteilte Datenvorverarbeitung.

Sie können Ray Data oder andere Tools verwenden, um auf Ihre Daten zuzugreifen. Weitere Informationen zum Zugriff auf Ihre Daten in Ray finden Sie unter Verbindung zu Daten in Ray-Aufträgen.

Ray Data in AWS Glue für Ray

Ray Data wird standardmäßig in der verwalteten Ray2.4-Laufzeitumgebung unterstützt und bereitgestellt. Weitere Informationen zu bereitgestellten Modulen finden Sie unter Mit Ray-Aufträgen bereitgestellte Module.