Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS Glue für Spark und AWS Glue für Ray
In AWS Glue Apache Spark (AWS Glue ETL) können PySpark Sie Python-Code schreiben, um Daten in großem Maßstab zu verarbeiten. Spark ist eine vertraute Lösung für dieses Problem, aber Dateningenieure mit einem Python-fokussierten Hintergrund können den Übergang als unintuitiv empfinden. Das DataFrame Spark-Modell ist nicht nahtlos „pythonisch“, was die Scala-Sprache und die Java-Laufzeit widerspiegelt, auf der es aufbaut.
In AWS Glue können Sie Python-Shell-Jobs verwenden, um native Python-Datenintegrationen auszuführen. Diese Jobs werden auf einer einzigen EC2 Amazon-Instance ausgeführt und sind durch die Kapazität dieser Instance begrenzt. Dies schränkt den Datendurchsatz ein, den Sie verarbeiten können, und wird bei Big Data teuer in der Wartung.
AWS Glue for Ray ermöglicht es Ihnen, Python-Workloads zu skalieren, ohne nennenswerte Investitionen in das Erlernen von Spark zu tätigen. Sie können bestimmte Szenarien nutzen, in denen Ray eine bessere Leistung erbringt. Indem wir Ihnen eine Auswahl anbieten, können Sie die Stärken von Spark und Ray nutzen.
AWS Glue ETLund AWS Glue für Ray unterscheiden sich die Unterseiten, sodass sie unterschiedliche Funktionen unterstützen. Bitte prüfen Sie die Dokumentation, um die unterstützten Features zu bestimmen.
Was ist AWS Glue für Ray?
Ray ist ein Open-Source-Framework für verteilte Berechnungen, mit dem Sie Workloads mit Schwerpunkt auf Python skalieren können. Weitere Informationen zu Ray finden Sie auf der Website von Ray
Sie können AWS Glue for Ray verwenden, um Python-Skripte für Berechnungen zu schreiben, die parallel auf mehreren Computern ausgeführt werden. In Ray-Aufträgen und interaktiven Sitzungen können Sie vertraute Python-Bibliotheken wie Pandas verwenden, um Ihre Workflows einfach zu schreiben und auszuführen. Weitere Informationen zu Ray-Datensätzen finden Sie unter Ray-Datensätze
Wenn Sie AWS Glue for Ray verwenden, können Sie Ihre Pandas-Workflows mit Big Data auf Unternehmensebene ausführen — mit nur wenigen Codezeilen. Sie können einen Ray-Job von der Konsole oder dem AWS Glue aus erstellen. AWS SDK Sie können auch eine AWS Glue interaktive Sitzung öffnen, um Ihren Code in einer serverlosen Ray-Umgebung auszuführen. Visuelle Jobs in AWS Glue Studio werden noch nicht unterstützt.
AWS Glue for Ray-Jobs ermöglichen es Ihnen, ein Skript nach einem Zeitplan oder als Reaktion auf ein Ereignis von Amazon auszuführen EventBridge. Jobs speichern Protokollinformationen und Überwachungsstatistiken CloudWatch , anhand derer Sie den Zustand und die Zuverlässigkeit Ihres Skripts nachvollziehen können. Weitere Informationen zum AWS Glue Jobsystem finden Sie unterArbeiten mit Ray-Aufträgen in AWS Glue.
Ray automatisiert die Skalierung von Python-Code, indem es die Verarbeitung auf einen Cluster von Computern verteilt, die es je nach Auslastung in Echtzeit neu konfiguriert. Dies kann bei bestimmten Workloads zu einer verbesserten Leistung pro Dollar führen. Bei Ray-Jobs haben wir Auto Scaling nativ in das AWS Glue Jobmodell integriert, sodass Sie diese Funktion voll ausnutzen können. Ray-Jobs werden auf AWS Graviton ausgeführt, was insgesamt zu einem höheren Preis-Leistungs-Verhältnis führt.
Zusätzlich zu den Einsparungen können Sie das native Auto Scaling verwenden, um Ray-Workloads auszuführen, ohne Zeit in die Cluster-Wartung, -Abstimmung und -Verwaltung zu investieren. Sie können vertraute Open-Source-Bibliotheken wie Pandas und die for Pandas sofort verwenden. AWS SDK Diese verbessern die Iterationsgeschwindigkeit, während Sie auf AWS Glue für Ray entwickeln. Wenn Sie AWS Glue for Ray verwenden, können Sie schnell kostengünstige Datenintegrationsworkloads entwickeln und ausführen.