Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動 - Amazon EMR

Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動

このインテグレーションを使用するには、Spark ジョブで必要な Spark Redshift の依存関係を渡す必要があります。--jars を使用して、Redshift コネクタ関連のライブラリを含める必要があります。ファイルの保存先として --jars オプションでサポートされている他の場所を確認するには、Apache Spark ドキュメントの「Advanced Dependency Management」セクションを参照してください。

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR on EKS リリース 6.9.0 以降で Amazon Redshift integration for Apache Spark を使用して Spark アプリケーションを起動するには、次のようなコマンドを使用します。なお、--conf spark.jars オプションに指定されているパスは JAR ファイルのデフォルトのパスであることに注意してください。

aws emr-containers start-job-run \ --virtual-cluster-id cluster_id \ --execution-role-arn arn \ --release-label emr-6.9.0-latest\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path --conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'