Ejecución de un trabajo de procesamiento con Apache Spark

Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Amazon SageMaker AI proporciona imágenes de Docker prediseñadas que incluyen Apache Spark y otras dependencias necesarias para ejecutar trabajos de procesamiento de datos distribuidos. A continuación, se proporciona un ejemplo de cómo ejecutar un trabajo de Amazon SageMaker Processing con Apache Spark.

Con el SDK de Amazon SageMaker Python, puede aplicar fácilmente transformaciones de datos y extraer características (ingeniería de características) mediante el marco Spark. Para obtener información sobre el uso del SDK de SageMaker Python para ejecutar trabajos de procesamiento de Spark, consulte Procesamiento de datos con Spark en el SDK de Amazon SageMaker Python.

Hay disponible un repositorio de código que contiene el código fuente y los Dockerfiles de las imágenes de Spark en. GitHub

Puede usar la clase sagemaker.spark.PySparkProcessor o sagemaker.spark.SparkJarProcessor para ejecutar su aplicación Spark dentro de un trabajo de procesamiento. Ten en cuenta que puedes MaxRuntimeInSeconds establecer un límite máximo de tiempo de ejecución de 5 días. Con respecto al tiempo de ejecución y al número de instancias utilizadas, las cargas de trabajo de simple spark muestran una relación casi lineal entre el número de instancias y el tiempo de finalización.

El siguiente ejemplo de código muestra cómo ejecutar un trabajo de procesamiento que invoca el PySpark scriptpreprocess.py.


from sagemaker.spark.processing import PySparkProcessor

spark_processor = PySparkProcessor(
    base_job_name="spark-preprocessor",
    framework_version="2.4",
    role=role,
    instance_count=2,
    instance_type="ml.m5.xlarge",
    max_runtime_in_seconds=1200,
)

spark_processor.run(
    submit_app="preprocess.py",
    arguments=['s3_input_bucket', bucket,
               's3_input_key_prefix', input_prefix,
               's3_output_bucket', bucket,
               's3_output_key_prefix', output_prefix]
)

Para obtener más información, consulte el cuaderno de ejemplo sobre procesamiento y SageMaker procesamiento de datos distribuidos con Apache Spark.

Si no utiliza el SDK de Python de Amazon SageMaker AI y una de sus clases de procesadores para recuperar las imágenes prediseñadas, puede recuperarlas usted mismo. Las imágenes de Docker SageMaker prediseñadas se almacenan en Amazon Elastic Container Registry (Amazon ECR). Para ver una lista completa de las imágenes de Docker prediseñadas disponibles, consulte el documento de imágenes disponibles.

Para obtener más información sobre el uso del SDK de SageMaker Python con contenedores de procesamiento, consulte Amazon SageMaker AI Python SDK.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Trabajos de procesamiento

Ejecución de un trabajo de procesamiento con scikit-learn