Modifica dei parametri della sessione PySpark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modifica dei parametri della sessione PySpark

A partire da EMR Amazon nella EKS versione 6.9.0, in Amazon EMR Studio puoi regolare la configurazione Spark associata a una PySpark sessione eseguendo il comando %%configure magico nella cella del EMR notebook.

L'esempio seguente mostra un payload di esempio che è possibile utilizzare per modificare la memoria, i core e altre proprietà per il driver e l'executor Spark. Utilizzando le impostazioni conf, è possibile configurare qualsiasi configurazione Spark menzionata nella documentazione di configurazione di Apache Spark.

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

L'esempio seguente mostra un payload di esempio che puoi usare per aggiungere file e dipendenze jar a un runtime Spark. pyFiles

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }