本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Apache Spark 运行处理作业
Apache Spark 是用于大规模数据处理的统一分析引擎。Amazon SageMaker AI 提供预构建的 Docker 镜像,其中包括 Apache Spark 和运行分布式数据处理任务所需的其他依赖项。以下是如何使用 Apache Spark 运行亚马逊 SageMaker 处理任务的示例。
借助 Amaz SageMaker on Python SDK
包含源代码和 Spark 映像的 DockerFiles 的代码存储库可在上找到。GitHub
您可以使用 sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
以下代码示例说明如何运行调用脚 PySpark 本的处理作业。preprocess.py
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
要深入了解,请参阅使用 Apache Spark 进行分布式数据处理和 SageMaker 处理示例笔记本
如果您没有使用 Amazon A SageMaker I Python SDK
要了解有关在处理容器中使用 SageMaker Python SDK 的更多信息,请参阅亚马逊 A SageMaker I Python SDK