Avvio di un'applicazione Spark utilizzando l'integrazione di Amazon Redshift per Apache Spark - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Avvio di un'applicazione Spark utilizzando l'integrazione di Amazon Redshift per Apache Spark

Per utilizzare l'integrazione, devi passare le dipendenze Spark Redshift richieste con il processo Spark. È necessario utilizzare --jars per includere le librerie relative al connettore Redshift. Per vedere le altre posizioni dei file supportate dall'opzione --jars, consulta la sezione Advanced Dependency Management (Gestione avanzata delle dipendenze) nella documentazione di Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Per avviare un'applicazione Spark con l'integrazione Amazon Redshift per Apache Spark EKS su EMR Amazon nella versione 6.9.0 o successiva, usa il seguente comando di esempio. Tieni presente che i percorsi elencati con l'--conf spark.jarsopzione sono i percorsi predefiniti per i file. JAR

aws emr-containers start-job-run \ --virtual-cluster-id cluster_id \ --execution-role-arn arn \ --release-label emr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path --conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'