Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動
EMR Serverless 6.9.0 とのインテグレーションを使用するには、Spark ジョブで必要な Spark Redshift の依存関係を渡す必要があります。--jars
を使用して、Redshift コネクタ関連のライブラリを含めます。ファイルの保存先として --jars
オプションでサポートされている他の場所を確認するには、Apache Spark ドキュメントの「Advanced Dependency Management」セクションを参照してください。
-
spark-redshift.jar
-
spark-avro.jar
-
RedshiftJDBC.jar
-
minimal-json.jar
Amazon EMR リリース 6.10.0 以降は minimal-json.jar
依存関係を必要とせず、デフォルトで他の依存関係を各クラスターに自動的にインストールします。以下の例は、Apache Spark 用の Amazon Redshift インテグレーションを使用して Spark アプリケーションを起動する方法を示しています。
- Amazon EMR 6.10.0 +
-
EMR Serverless リリース 6.10.0 以降で Amazon Redshift integration for Apache Spark を使用して、Amazon EMR Serverless の Spark ジョブを起動します。
spark-submit my_script.py
- Amazon EMR 6.9.0
-
EMR Serverless リリース 6.9.0 で Amazon Redshift integration for Apache Spark を使用して、Amazon EMR Serverless の Spark ジョブを起動するには、次の例に示すように --jars
オプションを使用します。なお、--jars
オプションに指定されているパスは JAR ファイルのデフォルトのパスであることに注意してください。
--jars
/usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \
--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \
my_script.py