Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動 - Amazon EMR

Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動

EMR Serverless 6.9.0 とのインテグレーションを使用するには、Spark ジョブで必要な Spark Redshift の依存関係を渡す必要があります。--jars を使用して、Redshift コネクタ関連のライブラリを含めます。ファイルの保存先として --jars オプションでサポートされている他の場所を確認するには、Apache Spark ドキュメントの「Advanced Dependency Management」セクションを参照してください。

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR リリース 6.10.0 以降は minimal-json.jar 依存関係を必要とせず、デフォルトで他の依存関係を各クラスターに自動的にインストールします。以下の例は、Apache Spark 用の Amazon Redshift インテグレーションを使用して Spark アプリケーションを起動する方法を示しています。

Amazon EMR 6.10.0 +

EMR Serverless リリース 6.10.0 以降で Amazon Redshift integration for Apache Spark を使用して、Amazon EMR Serverless の Spark ジョブを起動します。

spark-submit my_script.py
Amazon EMR 6.9.0

EMR Serverless リリース 6.9.0 で Amazon Redshift integration for Apache Spark を使用して、Amazon EMR Serverless の Spark ジョブを起動するには、次の例に示すように --jars オプションを使用します。なお、--jars オプションに指定されているパスは JAR ファイルのデフォルトのパスであることに注意してください。

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py