修改 PySpark 工作階段參數 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

修改 PySpark 工作階段參數

從 Amazon EMR 6.9.0 EKS版開始,您可以在 Amazon EMR Studio 中透過在EMR筆記本儲存格中執行%%configure魔術命令來調整與 PySpark 工作階段相關聯的 Spark 組態。

下列範例顯示了範例承載,可用來修改 Spark 驅動程式和執行程式的記憶體、核心和其他屬性。對於 conf 設定,可設定 Apache Spark 組態文件中提到的任何 Spark 組態。

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

下列範例顯示範例承載,可用來將檔案、 pyFiles和 jar 相依性新增至 Spark 執行期。

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }