翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Apache Spark を使用して Processing ジョブを実行する
Apache Spark は、大規模データ処理のための統合分析エンジンです。Amazon SageMaker AI は、Apache Spark と分散データ処理ジョブの実行に必要なその他の依存関係を含む構築済みの Docker イメージを提供します。Apache Spark を使用して Amazon SageMaker Processing ジョブを実行する方法の例を次に示します。
Amazon Python を使用すると、Spark SageMaker SDK
Spark イメージのソースコードと Dockerfiles を含むコードリポジトリは、 で入手できますGitHub
sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
次のコード例は、 PySpark スクリプト を呼び出す処理ジョブを実行する方法を示していますpreprocess.py
。
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
詳細については、「Apache Spark による分散データ処理」と SageMaker 「処理」のサンプルノートブック
Amazon SageMaker AI Python SDK
処理コンテナSDKでの Python SageMaker の使用の詳細については、「Amazon SageMaker AI PythonSDK