Amazon Redshift integration for Apache Spark を使用した Spark アプリケーションの起動

このインテグレーションを使用するには、Spark ジョブで必要な Spark Redshift の依存関係を渡す必要があります。--jars を使用して、Redshift コネクタ関連のライブラリを含める必要があります。ファイルの保存先として --jars オプションでサポートされている他の場所を確認するには、Apache Spark ドキュメントの「Advanced Dependency Management」セクションを参照してください。

spark-redshift.jar
spark-avro.jar
RedshiftJDBC.jar
minimal-json.jar

Amazon EMR on EKS リリース 6.9.0 以降で Amazon Redshift integration for Apache Spark を使用して Spark アプリケーションを起動するには、次のようなコマンドを使用します。なお、--conf spark.jars オプションに指定されているパスは JAR ファイルのデフォルトのパスであることに注意してください。


aws emr-containers start-job-run \

--virtual-cluster-id cluster_id \
--execution-role-arn arn \
--release-label emr-6.9.0-latest\
--job-driver '{
    "sparkSubmitJobDriver": {
        "entryPoint": "s3://script_path", 
            "sparkSubmitParameters":
            "--conf spark.kubernetes.file.upload.path=s3://upload_path 
             --conf spark.jars=
                /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
                /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar"
                            }
            }'

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Spark on Redshift の使用

Amazon Redshift の認証