PySpark 세션 파라미터 수정 - Amazon EMR

PySpark 세션 파라미터 수정

Amazon EMR on EKS 릴리스 6.9.0부터 Amazon EMR Studio에서는 EMR 노트북 셀에서 %%configure 매직 명령을 실행하여 PySpark 세션과 관련된 Spark 구성을 조정할 수 있습니다.

다음 예제에서는 Spark 드라이버 및 실행기의 메모리, 코어 및 기타 속성을 수정하는 데 사용할 수 있는 샘플 페이로드를 보여줍니다. conf 설정의 경우 Apache Spark 구성 설명서에 언급된 모든 Spark 구성을 구성할 수 있습니다.

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

다음 예제에서는 Spark 런타임에 파일, pyFiles 및 jar 종속 항목을 추가하는 데 사용할 수 있는 샘플 페이로드를 보여줍니다.

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }