SQLEsecuzione degli script Spark tramite StartJobRun API - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

SQLEsecuzione degli script Spark tramite StartJobRun API

EMRAmazon EKS nelle versioni 6.7.0 e successive include un SQL job driver Spark in modo da poter eseguire gli script Spark tramiteSQL. StartJobRun API Puoi fornire file SQL entry-point per eseguire direttamente SQL le query Spark EKS su EMR Amazon con, senza alcuna modifica StartJobRun API agli script Spark esistenti. SQL La tabella seguente elenca i parametri Spark supportati per i job Spark tramite. SQL StartJobRun API

Puoi scegliere tra i seguenti parametri Spark da inviare a un job Spark. SQL Utilizza questi parametri per sovrascrivere le proprietà Spark predefinite.

Opzione Descrizione

--nome NAME

Nome applicazione
--barattoli JARS Elenco separato da virgole dei jar da includere nel classpath di driver ed esecuzione.
--packages Elenco separato da virgole delle coordinate maven dei jar, da includere nei classpath di driver ed executor.
--exclude-packages Elenco separato da virgole digroupId:artifactId, da escludere durante la risoluzione delle dipendenze fornite in —packages per evitare conflitti di dipendenza.
--repositories Elenco separato da virgole di repository remoti aggiuntivi per la ricerca delle coordinate maven fornite con –packages.
--file FILES Elenco separato da virgole di file da inserire nella directory di lavoro di ogni executor.
PROP--conf = VALUE Proprietà di configurazione Spark.
--properties-file FILE Percorso verso un file da cui caricare proprietà aggiuntive.
--driver-memory MEM Memoria per il driver. Valore predefinito: 1.024 MB.
--driver-java-options Opzioni Java extra da passare al driver.
--driver-library-path Voci aggiuntive percorso libreria da passare al driver.
--driver-class-path Voci aggiuntive classpath da passare al driver.
--executor-memory MEM Memoria per ogni executor. Valore predefinito 1 GB.
--driver-cores NUM Numero di core utilizzati dal driver.
--total-executor-cores NUM Numero totale di core per tutti gli executor.
--executor-core NUM Numero di core utilizzati da ogni executor.
--num-executors NUM Numero di executor da avviare.
-hivevar <key=value> Sostituzione di variabile da applicare ai comandi Hive, ad esempio -hivevar A=B
-hiveconf <property=value> Valore da usare per la proprietà data.

Per un SQL job Spark, crea un start-job-run-request file.json e specifica i parametri richiesti per l'esecuzione del job, come nell'esempio seguente:

{ "name": "myjob", "virtualClusterId": "123456", "executionRoleArn": "iam_role_name_for_job_execution", "releaseLabel": "emr-6.7.0-latest", "jobDriver": { "sparkSqlJobDriver": { "entryPoint": "entryPoint_location", "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1" } }, "configurationOverrides": { "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.driver.memory":"2G" } } ], "monitoringConfiguration": { "persistentAppUI": "ENABLED", "cloudWatchMonitoringConfiguration": { "logGroupName": "my_log_group", "logStreamNamePrefix": "log_stream_prefix" }, "s3MonitoringConfiguration": { "logUri": "s3://my_s3_log_location" } } } }