Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Jalankan Processing Job dengan Apache Spark
Apache Spark adalah mesin analitik terpadu untuk pemrosesan data skala besar. Amazon SageMaker menyediakan gambar Docker bawaan yang menyertakan Apache Spark dan dependensi lain yang diperlukan untuk menjalankan pekerjaan pemrosesan data terdistribusi. Berikut ini memberikan contoh tentang cara menjalankan pekerjaan Amazon SageMaker Processing menggunakan Apache Spark.
Dengan Amazon SageMaker Python SDK
Repositori kode yang berisi kode sumber dan Dockerfiles untuk gambar Spark tersedia di. GitHub
Anda dapat menggunakan sagemaker.spark.SparkJarProcessor
sagemaker.spark.PySparkProcessor
Contoh kode berikut menunjukkan cara menjalankan pekerjaan pemrosesan yang memanggil PySpark skrip preprocess.py
Anda.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Jika Anda tidak menggunakan Amazon SageMaker Python SDK
Untuk mempelajari lebih lanjut tentang menggunakan SageMaker Python SDK dengan kontainer Processing, lihat Amazon SageMaker Python