Esecuzione di processi dalla console EMR Studio - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esecuzione di processi dalla console EMR Studio

È possibile inviare le esecuzioni dei job alle applicazioni EMR Serverless e visualizzarle dalla console EMR Studio. Per creare o accedere all'applicazione EMR Serverless sulla console EMR Studio, segui le istruzioni in Guida introduttiva alla console.

Invio di un processo

Nella pagina Invia un lavoro, puoi inviare un lavoro a un'applicazione EMR Serverless come segue.

Spark
  1. Nel campo Nome, inserisci un nome per l'esecuzione del job.

  2. Nel campo Runtime role, inserisci il nome del IAM ruolo che l'applicazione EMR Serverless può assumere per l'esecuzione del job. Per ulteriori informazioni sui ruoli di runtime, consultaRuoli Job Runtime per Amazon EMR Serverless.

  3. Nel campo Posizione dello script, inserisci la posizione Amazon S3 dello script o JAR che desideri eseguire. Per i lavori Spark, lo script può essere un file Python .py () o JAR un file .jar ().

  4. Se la posizione dello script è un JAR file, inserisci il nome della classe che è il punto di ingresso per il lavoro nel campo Classe principale.

  5. (Facoltativo) Inserite i valori per i campi rimanenti.

    • Argomenti dello script: inserisci gli argomenti che desideri passare allo script principale JAR o in Python. Il codice legge questi parametri. Separare ogni argomento dell'array con una virgola.

    • Proprietà Spark: espandi la sezione delle proprietà Spark e inserisci qualsiasi parametro di configurazione Spark in questo campo.

      Nota

      Se specifichi le dimensioni del driver e dell'executor Spark, devi tenere conto del sovraccarico di memoria. Specificate i valori del sovraccarico di memoria nelle proprietà e. spark.driver.memoryOverhead spark.executor.memoryOverhead Il sovraccarico di memoria ha un valore predefinito del 10% della memoria del contenitore, con un minimo di 384 MB. La memoria dell'esecutore e il sovraccarico di memoria insieme non possono superare la memoria di lavoro. Ad esempio, il massimo spark.executor.memory per un worker da 30 GB deve essere di 27 GB.

    • Job configuration: specifica qualsiasi configurazione del lavoro in questo campo. È possibile utilizzare queste configurazioni di lavoro per sovrascrivere le configurazioni predefinite per le applicazioni.

    • Impostazioni aggiuntive: attiva o disattiva il AWS Glue Data Catalog come metastore e modifica le impostazioni del registro dell'applicazione. Per ulteriori informazioni sulle configurazioni dei metastore, consulta. Configurazione Metastore Per ulteriori informazioni sulle opzioni di registrazione delle applicazioni, consulta. Archiviazione dei log

    • Tag: assegna tag personalizzati all'applicazione.

  6. Seleziona Submit job (Invia processo).

Hive
  1. Nel campo Nome, inserisci un nome per l'esecuzione del job.

  2. Nel campo Runtime role, inserisci il nome del IAM ruolo che l'applicazione EMR Serverless può assumere per l'esecuzione del job.

  3. Nel campo Posizione dello script, inserisci la posizione Amazon S3 dello script o JAR che desideri eseguire. Per i lavori Hive, lo script deve essere un file Hive ().sql.

  4. (Facoltativo) Immettete i valori per i campi rimanenti.

    • Posizione dello script di inizializzazione: immettere la posizione dello script che inizializza le tabelle prima dell'esecuzione dello script Hive.

    • Proprietà Hive: espandi la sezione delle proprietà di Hive e inserisci qualsiasi parametro di configurazione Hive in questo campo.

    • Configurazione del lavoro: specifica qualsiasi configurazione del lavoro. È possibile utilizzare queste configurazioni di lavoro per sovrascrivere le configurazioni predefinite per le applicazioni. Per i lavori Hive, hive.exec.scratchdir e hive.metastore.warehouse.dir sono proprietà obbligatorie nella configurazione. hive-site

      { "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse" } } ], "monitoringConfiguration": {} }
    • Impostazioni aggiuntive: attiva o disattiva il AWS Glue Data Catalog come metastore e modifica le impostazioni del registro dell'applicazione. Per ulteriori informazioni sulle configurazioni dei metastore, consulta. Configurazione Metastore Per ulteriori informazioni sulle opzioni di registrazione delle applicazioni, consulta. Archiviazione dei log

    • Tag: assegna qualsiasi tag personalizzato all'applicazione.

  5. Seleziona Submit job (Invia processo).

Visualizza esecuzioni dei processi

Dalla scheda Job run nella pagina Dettagli di un'applicazione, è possibile visualizzare le esecuzioni dei job ed eseguire le seguenti azioni per le esecuzioni di job.

Annulla processo: per annullare l'esecuzione di un processo in questo RUNNING stato, scegliete questa opzione. Per ulteriori informazioni sulle transizioni Job Run, consultaStati delle esecuzioni di processi.

Clona processo: per clonare un processo precedente eseguito e inviarlo nuovamente, scegli questa opzione.