Sitzungsparameter ändern PySpark - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Sitzungsparameter ändern PySpark

Ab EMR Amazon EKS Version 6.9.0 können Sie in Amazon EMR Studio die mit einer PySpark Sitzung verknüpfte Spark-Konfiguration anpassen, indem Sie den %%configure magischen Befehl in der EMR Notebook-Zelle ausführen.

Das folgende Beispiel zeigt eine Beispielnutzlast, mit der Sie Speicher, Kerne und andere Eigenschaften für den Spark-Treiber und Executor ändern können. Für die conf-Einstellungen können Sie jede Spark-Konfiguration konfigurieren, die in der Apache-Spark-Konfigurationsdokumentation erwähnt wird.

%%configure -f { "driverMemory": "16G", "driverCores" 4, "executorMemory" : "32G" "executorCores": 2, "conf": { "spark.dynamicAllocation.maxExecutors" : 10, "spark.dynamicAllocation.minExecutors": 1 } }

Das folgende Beispiel zeigt eine Beispiel-Payload, die Sie verwenden könnenpyFiles, um Dateien und JAR-Abhängigkeiten zu einer Spark-Laufzeit hinzuzufügen.

%%configure -f { "files": "s3://amzn-s3-demo-bucket-emr-eks/sample_file.txt", "pyFiles": : "path-to-python-files", "jars" : "path-to-jars }