기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Apache Spark를 사용한 처리 작업 실행
Apache Spark는 대규모 데이터 처리를 위한 통합 분석 엔진으로서, Amazon SageMaker AI는 분산 데이터 처리 작업을 실행하는 데 필요한 Apache Spark 및 기타 종속성을 포함하는 사전 구축된 Docker 이미지를 제공합니다. 다음은 Apache Spark를 사용하여 Amazon SageMaker 처리 작업을 실행하는 방법에 대한 예제입니다.
Amazon SageMaker Python SDK
Spark 이미지의 소스 코드와 Dockerfile이 포함된 코드 리포지토리는 GitHub
sagemaker.spark.PySparkProcessor
sagemaker.spark.SparkJarProcessor
다음 코드 예제는 PySpark 스크립트 preprocess.py
를 호출하는 처리 작업을 실행하는 방법을 보여줍니다.
from sagemaker.spark.processing import PySparkProcessor spark_processor = PySparkProcessor( base_job_name="spark-preprocessor", framework_version="2.4", role=role, instance_count=2, instance_type="ml.m5.xlarge", max_runtime_in_seconds=1200, ) spark_processor.run( submit_app="preprocess.py", arguments=['s3_input_bucket', bucket, 's3_input_key_prefix', input_prefix, 's3_output_bucket', bucket, 's3_output_key_prefix', output_prefix] )
자세한 내용은 Apache Spark를 사용한 분산형 데이터 처리 및 SageMaker 프로세싱 예제 노트북
Amazon SageMaker AI Python SDK
처리 컨테이너와 함께 SageMaker Python SDK를 사용하는 방법에 대한 자세한 내용은 Amazon SageMaker AI Python SDK