啟動一個星火應用程序與 Amazon Redshift 集成阿帕奇星火 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟動一個星火應用程序與 Amazon Redshift 集成阿帕奇星火

若要使用與EMR無伺服器 6.9.0 的整合,您必須將必要的 Spark Redshift 相依性與 Spark 工作傳遞。用--jars於包括與 Redshift 連接器相關的程式庫。若要查看 --jars 選項支援的其他檔案位置,請參閱 Apache Spark 說明文件的進階相依性管理一節。

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon 6.10.0 及更高EMR版本不需要相minimal-json.jar依性,預設會自動將其他相依性安裝到每個叢集。下列範例說明如何為 Apache Spark 啟動與 Amazon Redshift 整合的 Spark 應用程式。

Amazon EMR 6.10.0 +

在EMR無伺服器版本 6.10.0 及更高版本上,利用 Amazon Redshift 整合,在亞馬遜EMR無伺服器上啟動 Spark 任務。

spark-submit my_script.py
Amazon EMR 6.9.0

若要在 Amazon EMR 無伺服器上使用 Amazon Redshift 整合在無伺服EMR器 6.9.0 版本上啟動 Spark 任務,請使用下列範例所示的--jars選項。請注意,與--jars選項一起列示的路徑是JAR檔案的預設路徑。

--jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar, /usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar, /usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar
spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py