Modificação de parâmetros de sessões do PySpark
A partir da versão 6.9.0 do Amazon EMR no EKS, no Amazon EMR Studio é possível ajustar a configuração do Spark associada a uma sessão do PySpark executando o comando mágico %%configure
na célula de caderno do EMR.
O exemplo a seguir mostra uma carga útil de exemplo que você pode usar para modificar a memória, os núcleos e outras propriedades do driver e do executor do Spark. Para as configurações conf
, você pode definir qualquer configuração do Spark mencionada na documentação de configuração do Apache Spark
%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }
O exemplo a seguir mostra uma carga útil de exemplo que você pode usar para adicionar arquivos, pyFiles e dependências em JAR a um runtime do Spark.
%%configure -f { "files": "s3://
amzn-s3-demo-bucket-emr-eks/sample_file
.txt", "pyFiles": : "path-to-python-files
", "jars" : "path-to-jars
}