Esecuzione di un job di elaborazione con Apache Spark - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di un job di elaborazione con Apache Spark

Apache Spark è un motore di analisi unificato per l'elaborazione di dati su larga scala. Amazon SageMaker fornisce immagini Docker predefinite che includono Apache Spark e altre dipendenze necessarie per eseguire processi di elaborazione dati distribuiti. Di seguito viene fornito un esempio su come eseguire un processo di Amazon SageMaker Processing utilizzando Apache Spark.

Con Amazon SageMaker Python SDK, puoi applicare facilmente trasformazioni di dati ed estrarre funzionalità (ingegneria delle funzionalità) utilizzando il framework Spark. Per informazioni sull'utilizzo di SageMaker Python per SDK eseguire i processi di elaborazione Spark, consulta Data Processing with Spark in Amazon Python. SageMaker SDK

Un repository di codice che contiene il codice sorgente e i Dockerfile per le immagini Spark è disponibile su. GitHub

Puoi usare la classe sagemaker.spark.PySparkProcessor o sagemaker.spark.SparkJarProcessor per eseguire l'applicazione Spark all'interno di un processo di elaborazione. Nota che puoi impostare un limite massimo MaxRuntimeInSeconds di durata di 5 giorni. Per quanto riguarda il tempo di esecuzione e il numero di istanze utilizzate, i carichi di lavoro Simple Spark vedono una relazione quasi lineare tra il numero di istanze e il tempo di completamento.

Il seguente esempio di codice mostra come eseguire un processo di elaborazione che richiama lo script. PySpark preprocess.py

from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )

Per un'analisi approfondita, consultate il notebook di esempio Distributed Data Processing with Apache Spark and Processing. SageMaker

Se non utilizzi Amazon SageMaker Python SDK e una delle sue classi Processor per recuperare le immagini predefinite, puoi recuperarle tu stesso. Le immagini Docker SageMaker predefinite sono archiviate in Amazon Elastic Container Registry (AmazonECR). Per un elenco completo delle immagini Docker predefinite disponibili, consulta il documento delle immagini disponibili.

Per ulteriori informazioni sull'utilizzo di SageMaker Python SDK con i contenitori Processing, consulta Amazon SageMaker Python. SDK