Inicialização de uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark
Para usar a integração com o EMR Sem Servidor 6.9.0, você deve passar as dependências necessárias do Redshift para Spark com o trabalho do Spark. Use --jars
para incluir as bibliotecas relacionadas ao conector do Redshift. Para visualizar outros locais de arquivo com suporte pela opção --jars
, consulte a seção Advanced Dependency Management da documentação do Apache Spark.
-
spark-redshift.jar
-
spark-avro.jar
-
RedshiftJDBC.jar
-
minimal-json.jar
As versões 6.10.0 e superiores do Amazon EMR não exigem a dependência minimal-json.jar
e, por padrão, instalam automaticamente as outras dependências em cada cluster. Os exemplos a seguir mostram como iniciar uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark.
- Amazon EMR 6.10.0 +
-
Inicie um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark na versão 6.10.0 e posteriores do Amazon EMR Sem Servidor.
spark-submit my_script.py
- Amazon EMR 6.9.0
-
Para executar um trabalho do Spark no Amazon EMR Sem Servidor com a integração do Amazon Redshift para Apache Spark no EMR Sem Servidor versão 6.9.0, use a opção --jars
como mostrado no exemplo a seguir. Observe que os caminhos listados com a opção --jars
são os caminhos padrão para os arquivos JAR.
--jars
/usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,
/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,
/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,
/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \
--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \
my_script.py