Starten einer Spark-Anwendung mithilfe der Amazon-Redshift-Integration für Apache Spark

Um die Integration nutzen zu können, müssen Sie die erforderlichen Spark Redshift-Abhängigkeiten mit Ihrem Spark-Auftrag übergeben. Sie müssen --jars verwenden, um Redshift-Konnektor-bezogene Bibliotheken einzuschließen. Weitere von der --jars-Option unterstützte Dateispeicherorte finden Sie im Abschnitt Erweitertes Abhängigkeitsmanagement der Apache-Spark-Dokumentation.

spark-redshift.jar
spark-avro.jar
RedshiftJDBC.jar
minimal-json.jar

Verwenden Sie den folgenden Beispielbefehl, um eine Spark-Anwendung mit der Amazon Redshift Redshift-Integration für Apache Spark EMR auf Amazon ab EKS Version 6.9.0 zu starten. Beachten Sie, dass die mit der --conf spark.jars Option aufgeführten Pfade die Standardpfade für die JAR Dateien sind.


aws emr-containers start-job-run \

--virtual-cluster-id cluster_id \
--execution-role-arn arn \
--release-label emr-6.9.0-latest\
--job-driver '{
    "sparkSubmitJobDriver": {
        "entryPoint": "s3://script_path", 
            "sparkSubmitParameters":
            "--conf spark.kubernetes.file.upload.path=s3://upload_path 
             --conf spark.jars=
                /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
                /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar"
                            }
            }'

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden von Spark auf Redshift

Authentifizieren Sie sich bei Amazon Redshift