Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션 시작

통합을 사용하려면 필수 Spark Redshift 종속성을 Spark 작업과 함께 전달해야 합니다. Redshift 커넥터 관련 라이브러리를 포함하려면 --jars를 사용해야 합니다. --jars 옵션에서 지원하는 다른 파일 위치를 보려면 Apache Spark 설명서에서 Advanced Dependency Management 섹션을 참조하세요.

spark-redshift.jar
spark-avro.jar
RedshiftJDBC.jar
minimal-json.jar

Amazon EMR on EKS 릴리스 6.9.0 이상에서 Apache Spark용 Amazon Redshift 통합을 사용해 Spark 애플리케이션을 시작하려면 다음 예제 명령을 사용합니다. --conf spark.jars 옵션과 함께 나열된 경로는 JAR 파일의 기본 경로입니다.


aws emr-containers start-job-run \

--virtual-cluster-id cluster_id \
--execution-role-arn arn \
--release-label emr-6.9.0-latest\
--job-driver '{
    "sparkSubmitJobDriver": {
        "entryPoint": "s3://script_path", 
            "sparkSubmitParameters":
            "--conf spark.kubernetes.file.upload.path=s3://upload_path 
             --conf spark.jars=
                /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
                /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
                /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar"
                            }
            }'

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Redshift에서 Spark 사용

Amazon Redshift에 대한 인증