Modificación de los parámetros de sesión de PySpark
A partir de la versión Amazon EMR en EKS 6.9.0, en Amazon EMR Studio, puede ajustar la configuración de Spark asociada a una sesión de PySpark si ejecuta el comando mágico %%configure
en la celda del cuaderno de EMR.
En el siguiente ejemplo, se muestra una carga útil de muestra que puede usar para modificar la memoria, los núcleos y otras propiedades del controlador y ejecutor de Spark. En cuanto a los ajustes de conf
, puede configurar cualquier configuración de Spark que se mencione en la documentación de configuración de Apache Spark
%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }
En el siguiente ejemplo, se muestra una carga útil de muestra que puede usar para agregar archivos, pyFiles y dependencias jar a un tiempo de ejecución de Spark.
%%configure -f { "files": "s3://
amzn-s3-demo-bucket-emr-eks/sample_file
.txt", "pyFiles": : "path-to-python-files
", "jars" : "path-to-jars
}