Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecución de un trabajo de procesamiento con Apache Spark
Apache Spark es un motor de análisis unificado para el procesamiento de datos a gran escala. Amazon SageMaker AI proporciona imágenes de Docker prediseñadas que incluyen Apache Spark y otras dependencias necesarias para ejecutar trabajos de procesamiento de datos distribuidos. A continuación, se proporciona un ejemplo de cómo ejecutar un trabajo de Amazon SageMaker Processing con Apache Spark.
Con el SDK de Amazon SageMaker Python
Hay disponible un repositorio de código que contiene el código fuente y los Dockerfiles de las imágenes de Spark en. GitHub
Puede usar la clase sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
El siguiente ejemplo de código muestra cómo ejecutar un trabajo de procesamiento que invoca el PySpark scriptpreprocess.py
.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Para obtener más información, consulte el cuaderno de ejemplo
Si no utiliza el SDK de Python de Amazon SageMaker AI
Para obtener más información sobre el uso del SDK de SageMaker Python con contenedores de procesamiento, consulte Amazon SageMaker AI Python SDK