Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lancement d'une application Spark à l'aide de l'intégration Amazon Redshift pour Apache Spark

Pour utiliser l'intégration, vous devez transmettre les dépendances Spark Redshift requises à votre tâche Spark. Vous devez utiliser --jars pour inclure les bibliothèques liées au connecteur Redshift. Pour connaître les autres emplacements de fichiers pris en charge par l'option --jars, consultez la rubrique Gestion avancée des dépendances de la documentation Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Pour lancer une application Spark avec l'intégration Amazon Redshift pour Apache Spark EMR sur Amazon EKS version 6.9.0 ou ultérieure, utilisez l'exemple de commande suivant. Notez que les chemins répertoriés avec l'--conf spark.jarsoption sont les chemins par défaut pour les JAR fichiers.

aws emr-containers start-job-run \ --virtual-cluster-id cluster_id \ --execution-role-arn arn \ --release-label emr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path --conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'