Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動
このインテグレーションを使用するには、Spark ジョブで必要な Spark Redshift の依存関係を渡す必要があります。--jars
を使用して、Redshift コネクタ関連のライブラリを含める必要があります。ファイルの保存先として --jars
オプションでサポートされている他の場所を確認するには、Apache Spark ドキュメントの「Advanced Dependency Management
-
spark-redshift.jar
-
spark-avro.jar
-
RedshiftJDBC.jar
-
minimal-json.jar
Amazon EMR on EKS リリース 6.9.0 以降で Amazon Redshift integration for Apache Spark を使用して Spark アプリケーションを起動するには、次のようなコマンドを使用します。なお、--conf spark.jars
オプションに指定されているパスは JAR ファイルのデフォルトのパスであることに注意してください。
aws emr-containers start-job-run \ --virtual-cluster-id
cluster_id
\ --execution-role-arnarn
\ --release-labelemr-6.9.0-latest
\ --job-driver '{ "sparkSubmitJobDriver": { "entryPoint": "s3://script_path
", "sparkSubmitParameters": "--conf spark.kubernetes.file.upload.path=s3://upload_path
--conf spark.jars= /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar" } }'