Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark

Untuk Amazon EMR merilis 6.4 hingga 6.9, Anda harus menggunakan --packages opsi --jars or untuk menentukan JAR file berikut yang ingin Anda gunakan. --jarsOpsi menentukan dependensi yang disimpan secara lokal, diHDFS, atau menggunakan HTTP /S. Untuk melihat lokasi file lain yang didukung oleh --jars opsi, lihat Advanced Dependency Management dalam dokumentasi Spark. --packagesOpsi menentukan dependensi yang disimpan dalam repo Maven publik.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR merilis 6.10.0 dan yang lebih tinggi tidak memerlukan minimal-json.jar dependensi, dan secara otomatis menginstal dependensi lain ke setiap cluster secara default. Contoh berikut menunjukkan cara meluncurkan aplikasi Spark dengan integrasi Amazon Redshift untuk Apache Spark.

Amazon EMR 6.10.0 +

Contoh berikut menunjukkan cara meluncurkan aplikasi Spark dengan spark-redshift konektor dengan EMR rilis Amazon 6.10 dan lebih tinggi.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Untuk meluncurkan aplikasi Spark dengan spark-redshift konektor di Amazon EMR merilis 6.4 hingga 6.9, Anda harus menggunakan --packages opsi --jars or, seperti yang ditunjukkan contoh berikut. Perhatikan bahwa jalur yang tercantum dengan --jars opsi adalah jalur default untuk JAR file.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py