Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션 시작 - Amazon EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션 시작

EMR Serverless 6.9.0과의 통합을 사용하려면 필수 Spark-Redshift 종속 항목을 Spark 작업과 함께 전달해야 합니다. Redshift 커넥터 관련 라이브러리를 포함하려면 --jars를 사용합니다. --jars 옵션에서 지원하는 다른 파일 위치를 보려면 Apache Spark 설명서에서 Advanced Dependency Management 섹션을 참조하세요.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR 릴리스 6.10.0 이상에서는 minimal-json.jar 종속성이 필요하지 않으며 기본적으로 다른 종속성을 각 클러스터에 자동으로 설치합니다. 다음 예제에서는 Apache Spark용 Amazon Redshift 통합을 사용하여 Spark 애플리케이션을 시작하는 방법을 보여줍니다.

Amazon EMR 6.10.0 +

EMR Serverless 릴리스 6.10.0 이상에서 Apache Spark용 Amazon Redshift 통합을 사용해 Amazon EMR Serverless에서 Spark 작업을 시작합니다.

spark-submit my_script.py
Amazon EMR 6.9.0

EMR Serverless 릴리스 6.9.0에서 Apache Spark에 대한 Amazon Redshift 통합을 통해 Amazon EMR Serverless에서 Spark 작업을 시작하려면 다음 예제와 같이 --jars 옵션을 사용합니다. --jars 옵션과 함께 나열된 경로는 JAR 파일의 기본 경로입니다.

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py