As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Execute um trabalho de processamento com o Apache Spark
O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala. SageMakerA Amazon fornece imagens pré-criadas do Docker que incluem o Apache Spark e outras dependências necessárias para executar trabalhos distribuídos de processamento de dados. Veja a seguir um exemplo de como executar um trabalho de SageMaker processamento da Amazon usando o Apache Spark.
Com o Amazon SageMaker Python SDK
Um repositório de código que contém o código-fonte e os Dockerfiles das imagens do Spark está disponível em. GitHub
Você pode usar a sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
O exemplo de código a seguir mostra como executar um trabalho de processamento que invoca seu PySpark script. preprocess.py
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
Se você não estiver usando o Amazon SageMaker Python SDK
Para saber mais sobre como usar o SageMaker Python SDK com contêineres de processamento, consulte Amazon SageMaker Python