Jalankan Processing Job dengan Apache Spark - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jalankan Processing Job dengan Apache Spark

Apache Spark adalah mesin analitik terpadu untuk pemrosesan data skala besar. Amazon SageMaker menyediakan gambar Docker bawaan yang menyertakan Apache Spark dan dependensi lain yang diperlukan untuk menjalankan pekerjaan pemrosesan data terdistribusi. Berikut ini memberikan contoh tentang cara menjalankan pekerjaan Amazon SageMaker Processing menggunakan Apache Spark.

Dengan Amazon SageMaker Python SDK, Anda dapat dengan mudah menerapkan transformasi data dan mengekstrak fitur (rekayasa fitur) menggunakan kerangka kerja Spark. Untuk informasi tentang penggunaan SageMaker Python SDK untuk menjalankan pekerjaan pemrosesan Spark, lihat Pemrosesan Data dengan Spark di Amazon Python. SageMaker SDK

Repositori kode yang berisi kode sumber dan Dockerfiles untuk gambar Spark tersedia di. GitHub

Anda dapat menggunakan sagemaker.spark.SparkJarProcessorkelas sagemaker.spark.PySparkProcessoror untuk menjalankan aplikasi Spark Anda di dalam pekerjaan pemrosesan. Catatan Anda dapat MaxRuntimeInSeconds mengatur batas runtime maksimum 5 hari. Sehubungan dengan waktu eksekusi, dan jumlah instance yang digunakan, beban kerja spark sederhana melihat hubungan linier yang dekat antara jumlah instance vs. waktu hingga penyelesaian.

Contoh kode berikut menunjukkan cara menjalankan pekerjaan pemrosesan yang memanggil PySpark skrip preprocess.py Anda.

from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )

Untuk melihat lebih dalam, lihat contoh notebook Distributed Data Processing with Apache Spark and SageMaker Processing.

Jika Anda tidak menggunakan Amazon SageMaker Python SDK dan salah satu kelas Prosesornya untuk mengambil gambar yang sudah dibuat sebelumnya, Anda dapat mengambil gambar ini sendiri. Gambar Docker SageMaker bawaan disimpan di Amazon Elastic Container Registry (AmazonECR). Untuk daftar lengkap gambar Docker bawaan yang tersedia, lihat dokumen gambar yang tersedia.

Untuk mempelajari lebih lanjut tentang menggunakan SageMaker Python SDK dengan kontainer Processing, lihat Amazon SageMaker Python. SDK