Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Arbeiten mit Ray-Aufträgen in AWS Glue
Dieser Abschnitt bietet Informationen zur Verwendung von AWS Glue für Ray-Aufträge. Weitere Informationen zum Schreiben von AWS Glue-für-Ray-Skripten finden Sie im Programmieren von Ray-Skripten-Abschnitt.
Themen
Erste Schritte mit AWS Glue für Ray
Um mit AWS Glue für Ray zu arbeiten, verwenden Sie dieselben AWS Glue-Aufträge und interaktiven Sitzungen, die Sie auch für AWS Glue für Spark verwenden. AWS Glue-Aufträge sind für die Ausführung desselben Skripts in wiederkehrenden Abständen konzipiert, während interaktive Sitzungen darauf ausgelegt sind, dass Sie Codeausschnitte nacheinander für dieselben bereitgestellten Ressourcen ausführen können.
AWS Glue ETL und Ray unterscheiden sich grundlegend, sodass Sie in Ihrem Skript Zugriff auf unterschiedliche Tools, Funktionen und Konfigurationen haben. Ist ein neues Berechnungs-Framework, das von AWS Glue verwaltet wird. Ray verfügt über eine andere Architektur und verwendet ein anderes Vokabular, um zu beschreiben, was es tut. Weitere Informationen finden Sie in den Architektur-Whitepapers
Anmerkung
AWS Glue für Ray ist in den USA Ost (Nord-Virginia), USA Ost (Ohio), USA West (Oregon), Asien-Pazifik (Tokio) und Europa (Irland) verfügbar.
Ray-Aufträge in der AWS Glue Studio-Konsole
Auf der Seite Aufträge in der AWS Glue Studio-Konsole können Sie eine neue Option auswählen, wenn Sie einen Auftrag in AWS Glue Studio – Ray-Skript-Editor erstellen. Wählen Sie diese Option, um einen Ray-Auftrag in der Konsole zu erstellen. Weitere Informationen zu Aufträgen und deren Verwendung finden Sie unter Visuelle ETL Jobs erstellen mit AWS Glue Studio.
Ray-Aufträge in der AWS CLI und im SDK
Ray-Aufträge in der AWS CLI verwenden dieselben SDK-Aktionen und Parameter wie andere Aufträge. AWS Glue für Ray führt neue Werte für bestimmte Parameter ein. Weitere Informationen zur Auftrags-API finden Sie unter Aufträge.
Unterstützte Ray-Laufzeitumgebungen
Bei Spark-Aufträgen ermittelt GlueVersion
die Versionen von Apache Spark und Python, die in jedem AWS Glue für Spark-Aufträge verfügbar sind. Die Python-Version gibt die Version an, die für Aufträge vom Typ Spark unterstützt wird. Dies ist nicht die Art und Weise, wie Ray-Laufzeitumgebungen konfiguriert sind.
Für Ray-Aufträge sollten Sie GlueVersion
auf 4.0
oder höher festlegen. Welche Versionen von Ray, Python und weiteren Bibliotheken in Ihrem Ray-Auftrag verfügbar sind, wird jedoch durch das Runtime
-Feld in der Auftragsdefinition bestimmt.
Die Ray2.4
Laufzeitumgebung steht nach der Veröffentlichung mindestens 6 Monate lang zur Verfügung. Da sich Ray schnell weiterentwickelt, können Sie Aktualisierungen und Verbesserungen von Ray über zukünftige Versionen der Laufzeitumgebung einbinden.
Zulässige Werte: Ray2.4
Wert der Laufzeit | Ray- und Python-Versionen |
---|---|
Ray2.4 (für AWS Glue 4.0+) |
Ray 2.4.0 Python 3.9 |
Zusätzliche Informationen
-
Versionshinweise zu AWS Glue in Ray Versionen finden Sie unter AWS Glue-Versionen.
-
Informationen zu Python-Bibliotheken, die in einer Laufzeitumgebung bereitgestellt werden, finden Sie unter Mit Ray-Aufträgen bereitgestellte Module.
Abrechnung für Worker in Ray-Aufträgen
AWS Glue führt Ray-Aufträgen auf neuen Graviton-basierten EC2-Worker-Typen aus, die nur für Ray-Aufträgen verfügbar sind. Um diese Worker angemessen für die Workloads bereitzustellen, für die Ray entwickelt wurde, stellen wir für die meisten Worker ein anderes Verhältnis von Rechenressourcen zu Speicherressourcen bereit. Um diese Ressourcen zu berücksichtigen, verwenden wir die speicheroptimierte Datenverarbeitungseinheit (M-DPU) anstelle der Standard-Datenverarbeitungseinheit (DPU).
-
Eine M-DPU entspricht 4 vCPUs und 32 GB Arbeitsspeicher.
-
Eine DPU entspricht 4 vCPUs und 16 GB Arbeitsspeicher. DPUs werden verwendet, um Ressourcen in AWS Glue mit Spark-Aufträgen und entsprechenden Workern zu berücksichtigen.
Ray-Aufträge haben derzeit Zugriff auf einen Worker-Typ, Z.2X
. Dem Z.2X
-Worker sind 2 M-DPUs (8 vCPUs, 64 GB Arbeitsspeicher) zugeordnet und verfügt über 128 GB Festplattenspeicher. Ein Z.2X
-Computer stellt 8 Ray-Worker bereit (einen pro vCPU).
Die Anzahl der M-DPUs, die Sie gleichzeitig in einem Konto verwenden können, unterliegt einem Service-Kontingent. Weitere Informationen zu Ihren AWS Glue-Kontolimits finden Sie unter AWS Glue-Endpunkte und Kontingente.
Die Anzahl der Worker-Knoten, die einem Ray-Auftrag zur Verfügung stehen, geben Sie mit --number-of-workers
(NumberOfWorkers)
in der Auftragsdefinition an. Weitere Informationen zu Ray-Werten in der Auftrags-API finden Sie unter Aufträge.
Mit dem --min-workers
-Auftragsparameter können Sie außerdem eine Mindestanzahl von Workern angeben, die ein Ray-Auftrag zuweisen muss. Informationen zu Auftragsparametern finden Sie unter Referenz.