Inicialização de uma aplicação do Spark usando a integração do Amazon Redshift para Apache Spark - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Inicialização de uma aplicação do Spark usando a integração do Amazon Redshift para Apache Spark

Para as EMR versões 6.4 a 6.9 da Amazon, você deve usar a --packages opção --jars ou para especificar quais dos seguintes JAR arquivos você deseja usar. A --jars opção especifica dependências armazenadas localmenteHDFS, em ou usando HTTP /S. Para ver outras localizações de arquivos suportadas pela --jars opção, consulte Gerenciamento avançado de dependências na documentação do Spark. A opção --packages especifica dependências armazenadas no repositório público Maven.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

As EMR versões 6.10.0 e superiores da Amazon não exigem a minimal-json.jar dependência e instalam automaticamente as outras dependências em cada cluster por padrão. Os exemplos a seguir mostram como iniciar uma aplicação do Spark com a integração do Amazon Redshift para Apache Spark.

Amazon EMR 6.10.0 +

O exemplo a seguir mostra como iniciar um aplicativo Spark com o spark-redshift conector com as EMR versões 6.10 e superiores da Amazon.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Para iniciar um aplicativo Spark com o spark-redshift conector nas EMR versões 6.4 a 6.9 da Amazon, você deve usar a --packages opção --jars or, como mostra o exemplo a seguir. Observe que os caminhos listados com a --jars opção são os caminhos padrão para os JAR arquivos.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py