Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWS hat 2018 die AWS Glue-Python-Shell-Jobs AWS gestartet und 2018 die AWS Glue-Python-Shell-Jobs gestartet, um Kunden eine einfache Möglichkeit zu bieten, Python-Skripte für small-to-medium große ETL-Jobs auszuführen und SQL-Abfragen auszulösen. Inzwischen gibt es jedoch modernere und flexiblere Optionen, um die Workloads zu bewältigen, mit denen derzeit gearbeitet PythonShell wird. In diesem Thema wird erklärt, wie Sie Ihre Workloads von AWS Glue Python Shell-Jobs zu einer dieser alternativen Optionen migrieren, um die neueren verfügbaren Funktionen zu nutzen.
In diesem Thema wird erklärt, wie Sie von AWS Glue-Python-Shell-Jobs zu alternativen Optionen migrieren.
Migration der Arbeitslast zu AWS Glue Spark-Jobs
AWS Glue Spark und PySpark Jobs ermöglichen es Ihnen, Ihre Workloads verteilt auszuführen. Da sowohl AWS Glue Python Shell-Jobs als auch AWS Glue Spark-Jobs auf derselben Plattform ausgeführt werden, ist die Migration einfach und Sie können weiterhin bestehende AWS Glue-Funktionen verwenden, die Sie mit Python Shell-Jobs verwenden, wie AWS Glue-Workflows, AWS Glue-Trigger, die Amazon EventBridge Integration von AWS Glue, die\ PIP-basierte Paketinstallation usw.
AWS Glue Spark-Jobs sind jedoch für die Ausführung von Spark-Workloads konzipiert, und die Mindestanzahl von Workern beträgt 2. Wenn Sie von Python-Shell-Jobs migrieren, ohne Ihre Skripte zu ändern, wird nur ein Worker tatsächlich verwendet, und die anderen Worker bleiben inaktiv. Dies wird Ihre Kosten erhöhen.
Um es effizient zu gestalten, schreiben Sie Ihr Python-Jobskript neu, um die Funktionen von Spark zu nutzen und die Arbeitslast auf mehrere Worker zu verteilen. Wenn Ihr Python-Skript auf Pandas basiert, ist die Migration mithilfe der New Pandas API auf Spark ganz einfach. Erfahren Sie mehr darüber im AWS Big Data-Blog: Tauchen Sie tief in AWS Glue 4.0 für Apache Spark
Workload wird migriert zu AWS Lambda
AWS Lambda ist ein serverloser Computerdienst, mit dem Sie Code ausführen können, ohne Server bereitstellen oder verwalten zu müssen. Da AWS Lambda er kürzere Startzeiten und flexiblere Optionen für die Rechenkapazität bietet, können Sie von diesen Vorteilen profitieren. Für die Verwaltung zusätzlicher Python-Bibliotheken verwenden AWS Glue Python Shell-Jobs eine PIP-basierte Installation. Für müssen Sie AWS Lambda jedoch eine der folgenden Optionen wählen: ein ZIP-Archiv, ein Container-Image oder Lambda Layers.
Andererseits beträgt das maximale Timeout 900 Sekunden (15 Minuten). AWS Lambda Wenn die Jobdauer Ihres bestehenden AWS Glue Python Shell-Job-Workloads mehr als diese ist oder wenn Ihr Workload ein stacheliges Muster aufweist, das zu längeren Jobdauern führen kann, empfehlen wir, stattdessen andere Optionen zu prüfen. AWS Lambda
Migration von Workloads zu Amazon ECS/Fargate
Amazon Elastic Container Service (Amazon ECS) ist ein vollständig verwalteter Service, der die Bereitstellung, Verwaltung und Skalierung von containerisierten Anwendungen vereinfacht. AWS Fargate ist eine serverlose Rechen-Engine für containerisierte Workloads, die auf Amazon ECS und Amazon Elastic Kubernetes Service (Amazon EKS) ausgeführt werden. Bei Amazon ECS und Fargate gibt es kein maximales Timeout, daher ist dies eine gute Option für Jobs mit langer Laufzeit. Da Sie die volle Kontrolle über Ihr Container-Image haben, können Sie Ihr Python-Skript und zusätzliche Python-Bibliotheken in den Container bringen und verwenden. Sie müssen Ihr Python-Skript jedoch containerisieren, um diesen Ansatz verwenden zu können.
Migration von Workloads zu Amazon Managed Workflows für Apache Airflow Python Operator
Amazon Managed Workflows for Apache Airflow (Managed Workflows for Apache Airflow) ist ein verwalteter Orchestrierungsservice für Apache Airflow, der die Einrichtung und den Betrieb von end-to-end Daten-Pipelines in der Cloud in großem Maßstab erleichtert. Wenn Sie bereits über eine MWAA-Umgebung verfügen, ist es einfach, den Python-Operator anstelle von AWS Glue-Python-Shell-Jobs zu verwenden. Der Python-Operator ist ein Operator, der Python-Code innerhalb eines Airflow-Workflows ausführt. Wenn Sie jedoch noch nicht über eine MWAA-Umgebung verfügen, empfehlen wir, andere Optionen zu prüfen.
Migration der Arbeitslast zu KI-Schulungsjobs Amazon SageMaker AI
Amazon SageMaker AI Training ist ein vollständig verwalteter Service für maschinelles Lernen (ML), der Ihnen hilft Amazon SageMaker AI , eine Vielzahl von ML-Modellen effizient und in großem Maßstab zu trainieren. Der Kern von Amazon SageMaker AI KI-Jobs ist die Containerisierung von ML-Workloads und die Fähigkeit, Rechenressourcen zu verwalten AWS . Wenn Sie eine serverlose Umgebung bevorzugen, in der es kein maximales Timeout gibt, könnten Amazon SageMaker AI KI-Schulungsjobs genau das Richtige für Sie sein. Die Startlatenz ist jedoch tendenziell länger als bei AWS Glue Python Shell-Jobs. Für Jobs, die latenzempfindlich sind, empfehlen wir, andere Optionen zu prüfen.