Starten einer Spark-Anwendung mithilfe der Amazon-Redshift-Integration für Apache Spark - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten einer Spark-Anwendung mithilfe der Amazon-Redshift-Integration für Apache Spark

Für die EMR Amazon-Versionen 6.4 bis 6.9 müssen Sie die --packages Option --jars oder verwenden, um anzugeben, welche der folgenden JAR Dateien Sie verwenden möchten. Die --jars Option gibt Abhängigkeiten an, die lokalHDFS, in oder mithilfe von HTTP /S gespeichert sind. Weitere von der --jars Option unterstützte Dateispeicherorte finden Sie unter Erweitertes Abhängigkeitsmanagement in der Spark-Dokumentation. Die --packages-Option spezifiziert Abhängigkeiten, die im öffentlichen Maven-Repository gespeichert sind.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

EMRAmazon-Versionen 6.10.0 und höher erfordern die minimal-json.jar Abhängigkeit nicht und installieren die anderen Abhängigkeiten standardmäßig automatisch in jedem Cluster. Die folgenden Beispiele zeigen, wie Sie eine Spark-Anwendung mit der Amazon-Redshift-Integration für Apache Spark starten.

Amazon EMR 6.10.0 +

Das folgende Beispiel zeigt, wie eine Spark-Anwendung mit dem spark-redshift Connector mit EMR Amazon-Versionen 6.10 und höher gestartet wird.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Um eine Spark-Anwendung mit dem spark-redshift Connector auf den EMR Amazon-Versionen 6.4 bis 6.9 zu starten, müssen Sie die --packages Option --jars oder verwenden, wie das folgende Beispiel zeigt. Beachten Sie, dass die mit der --jars Option aufgeführten Pfade die Standardpfade für die JAR Dateien sind.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py