Ausführen von Spark-Skripten über SQL StartJobRun API

EMRAmazon enthält in den EKS Versionen 6.7.0 und höher einen SQL Spark-Job-Treiber, sodass Sie SQL Spark-Skripte über den StartJobRun API ausführen können. Sie können SQL Einstiegsdateien bereitstellen, auf denen Sie SQL Spark-Abfragen EMR auf EKS Amazon direkt ausführen können StartJobRunAPI, ohne Änderungen an vorhandenen SQL Spark-Skripten vornehmen zu müssen. In der folgenden Tabelle sind Spark-Parameter aufgeführt, die für die SQL Spark-Jobs über die unterstützt werden. StartJobRun API

Sie können aus den folgenden Spark-Parametern wählen, um sie an einen SQL Spark-Job zu senden. Verwenden Sie diese Parameter, um die Spark-Standardeigenschaften zu überschreiben.

Option	Beschreibung
--name NAME	Anwendungsname
--Gläser JARS	Durch Kommas getrennte Liste von JAR-Dateien, die in den Klassenpfad des Treibers und der Ausführung aufgenommen werden sollen.
--packages	Durch Kommas getrennte Liste der Maven-Koordinaten von JAR-Dateien, die in die Klassenpfade des Treibers und des Ausführers aufgenommen werden sollen.
--exclude-packages	Durch Kommas getrennte Liste vongroupId:artifactId, die bei der Auflösung der in —packages angegebenen Abhängigkeiten ausgeschlossen werden sollen, um Abhängigkeitskonflikte zu vermeiden.
--repositories	Kommagetrennte Liste zusätzlicher Remote-Repositorys, um nach den mit –packages angegebenen Maven-Koordinaten zu suchen.
--files FILES	Durch Kommas getrennte Liste von Dateien, die im Arbeitsverzeichnis jedes Ausführers abgelegt werden sollen.
--conf = PROP VALUE	Spark-Konfigurationseigenschaft.
--Eigenschaften-Datei FILE	Pfad zu einer Datei, aus der zusätzliche Eigenschaften geladen werden sollen.
--Treiber-Speicher MEM	Arbeitsspeicher für den Treiber. Standard 1 024 MB.
--driver-java-options	Zusätzliche Java-Optionen, die an den Treiber übergeben werden.
--driver-library-path	Zusätzliche Bibliothekspfadeinträge, die an den Treiber übergeben werden.
--driver-class-path	Zusätzliche Klassenpfadeinträge, die an den Treiber übergeben werden.
--executor-Speicher MEM	Arbeitsspeicher pro Ausführer. Standard: 1 GB.
--Treiberkerne NUM	Anzahl der vom Treiber verwendeten Kerne.
--total-executor-cores NUM	Gesamtzahl der Kerne für alle Ausführer.
--executor-cores NUM	Anzahl der von jedem Ausführer verwendeten Kerne.
--num-executoren NUM	Anzahl der zu startenden Ausführer.
-hivevar <key=value>	Variablenersetzung zur Anwendung auf Hive-Befehle, zum Beispiel `-hivevar A=B`
-hiveconf <property=value>	Wert, der für die angegebene Eigenschaft verwendet werden soll.

Erstellen Sie für einen SQL Spark-Job eine start-job-run-request .json-Datei und geben Sie die erforderlichen Parameter für Ihre Jobausführung an, wie im folgenden Beispiel:


{
  "name": "myjob", 
  "virtualClusterId": "123456",  
  "executionRoleArn": "iam_role_name_for_job_execution", 
  "releaseLabel": "emr-6.7.0-latest", 
  "jobDriver": {
    "sparkSqlJobDriver": {
      "entryPoint": "entryPoint_location",
       "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.driver.memory":"2G"
         }
      }
    ], 
    "monitoringConfiguration": {
      "persistentAppUI": "ENABLED", 
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "my_log_group", 
        "logStreamNamePrefix": "log_stream_prefix"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://my_s3_log_location"
      }
    }
  }
}

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden Sie CloudWatch Logs

Status von Aufgabenausführungen