Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esecuzione di un job di elaborazione con Apache Spark
Apache Spark è un motore di analisi unificato per l'elaborazione di dati su larga scala. Amazon SageMaker fornisce immagini Docker predefinite che includono Apache Spark e altre dipendenze necessarie per eseguire processi di elaborazione dati distribuiti. Di seguito viene fornito un esempio su come eseguire un processo di Amazon SageMaker Processing utilizzando Apache Spark.
Con Amazon SageMaker Python SDK
Un repository di codice che contiene il codice sorgente e i Dockerfile per le immagini Spark è disponibile su. GitHub
Puoi usare la classe sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
Il seguente esempio di codice mostra come eseguire un processo di elaborazione che richiama lo script. PySpark preprocess.py
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Se non utilizzi Amazon SageMaker Python SDK
Per ulteriori informazioni sull'utilizzo di SageMaker Python SDK con i contenitori Processing, consulta Amazon SageMaker Python