Inicialização de uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark - Amazon EMR

Inicialização de uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark

Para usar a integração com o EMR Sem Servidor 6.9.0, você deve passar as dependências necessárias do Redshift para Spark com o trabalho do Spark. Use --jars para incluir as bibliotecas relacionadas ao conector do Redshift. Para visualizar outros locais de arquivo com suporte pela opção --jars, consulte a seção Advanced Dependency Management da documentação do Apache Spark.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

As versões 6.10.0 e superiores do Amazon EMR não exigem a dependência minimal-json.jar e, por padrão, instalam automaticamente as outras dependências em cada cluster. Os exemplos a seguir mostram como iniciar uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark.

Amazon EMR 6.10.0 +

Inicie um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark na versão 6.10.0 e posteriores do Amazon EMR Sem Servidor.

spark-submit my_script.py
Amazon EMR 6.9.0

Para executar um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark no EMR Sem Servidor versão 6.9.0, use a opção --jars como mostrado no exemplo a seguir. Observe que os caminhos listados com a opção --jars são os caminhos padrão para os arquivos JAR.

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py