Modificação de parâmetros de sessões do PySpark - Amazon EMR

Modificação de parâmetros de sessões do PySpark

A partir da versão 6.9.0 do Amazon EMR no EKS, no Amazon EMR Studio é possível ajustar a configuração do Spark associada a uma sessão do PySpark executando o comando mágico %%configure na célula de caderno do EMR.

O exemplo a seguir mostra uma carga útil de exemplo que você pode usar para modificar a memória, os núcleos e outras propriedades do driver e do executor do Spark. Para as configurações conf, você pode definir qualquer configuração do Spark mencionada na documentação de configuração do Apache Spark.

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

O exemplo a seguir mostra uma carga útil de exemplo que você pode usar para adicionar arquivos, pyFiles e dependências em JAR a um runtime do Spark.

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }