Modificación de los parámetros de sesión de PySpark - Amazon EMR

Modificación de los parámetros de sesión de PySpark

A partir de la versión Amazon EMR en EKS 6.9.0, en Amazon EMR Studio, puede ajustar la configuración de Spark asociada a una sesión de PySpark si ejecuta el comando mágico %%configure en la celda del cuaderno de EMR.

En el siguiente ejemplo, se muestra una carga útil de muestra que puede usar para modificar la memoria, los núcleos y otras propiedades del controlador y ejecutor de Spark. En cuanto a los ajustes de conf, puede configurar cualquier configuración de Spark que se mencione en la documentación de configuración de Apache Spark.

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

En el siguiente ejemplo, se muestra una carga útil de muestra que puede usar para agregar archivos, pyFiles y dependencias jar a un tiempo de ejecución de Spark.

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }