Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Einen Verarbeitungsjob mit Apache Spark ausführen
Apache Spark ist eine einheitliche Analyse-Engine für die Datenverarbeitung in großem Maßstab. Amazon SageMaker AI bietet vorgefertigte Docker-Images, die Apache Spark und andere Abhängigkeiten enthalten, die für die Ausführung verteilter Datenverarbeitungsaufträge erforderlich sind. Im Folgenden finden Sie ein Beispiel für die Ausführung eines Amazon SageMaker Processing-Jobs mit Apache Spark.
Mit dem Amazon SageMaker Python SDK
Ein Code-Repository, das den Quellcode und die Dockerfiles für die Spark-Images enthält, ist unter verfügbar. GitHub
Sie können die sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
Das folgende Codebeispiel zeigt, wie Sie einen Verarbeitungsjob ausführen, der Ihr PySpark Skript preprocess.py
aufruft.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Einen ausführlichen Einblick finden Sie im Beispielnotizbuch
Wenn Sie das Amazon SageMaker AI Python SDK
Weitere Informationen zur Verwendung des SageMaker Python-SDK mit Verarbeitungscontainern finden Sie unter Amazon SageMaker AI Python SDK