Guida introduttiva a EMR Serverless dalla console - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Guida introduttiva a EMR Serverless dalla console

Fase 1: Creare un'applicazione EMR serverless

Crea una nuova applicazione con EMR Serverless come segue.

  1. Accedi a AWS Management Console e apri la EMR console Amazon all'indirizzo https://console.aws.amazon.com/emr.

  2. Nel riquadro di navigazione a sinistra, scegli EMRServerless per accedere alla landing page EMR Serverless.

  3. Per creare o gestire applicazioni EMR Serverless, è necessaria l'EMRinterfaccia utente di Studio.

    • Se disponi già di uno EMR Studio nel Regione AWS luogo in cui desideri creare un'applicazione, seleziona Gestisci applicazioni per accedere al tuo EMR Studio oppure seleziona lo studio che desideri utilizzare.

    • Se non disponi di uno EMR Studio in Regione AWS cui desideri creare un'applicazione, scegli Inizia, quindi scegli Crea e avvia Studio. EMRServerless crea uno EMR Studio per te in modo che tu possa creare e gestire applicazioni.

  4. Nell'interfaccia utente di Create studio che si apre in una nuova scheda, inserisci il nome, il tipo e la versione di rilascio dell'applicazione. Se desideri eseguire solo processi batch, seleziona Usa le impostazioni predefinite solo per i processi batch. Per i carichi di lavoro interattivi, seleziona Usa le impostazioni predefinite per i carichi di lavoro interattivi. Con questa opzione puoi anche eseguire lavori in batch su applicazioni abilitate all'interattività. Se necessario, è possibile modificare queste impostazioni in un secondo momento.

    Per ulteriori informazioni, consulta Creare uno studio.

  5. Seleziona Crea applicazione per creare la tua prima applicazione.

Passa alla sezione successiva Fase 2: Inviare un job run o un carico di lavoro interattivo per inviare un job run o un carico di lavoro interattivo.

Fase 2: Inviare un job run o un carico di lavoro interattivo

Spark job run

In questo tutorial, utilizziamo uno PySpark script per calcolare il numero di occorrenze di parole uniche in più file di testo. Un bucket S3 pubblico di sola lettura memorizza sia lo script che il set di dati.

Per eseguire un job Spark
  1. Carica lo script di esempio wordcount.py nel tuo nuovo bucket con il seguente comando.

    aws s3 cp s3://us-east-1.elasticmapreduce/emr-containers/samples/wordcount/scripts/wordcount.py s3://amzn-s3-demo-bucket/scripts/
  2. Fase 1: Creare un'applicazione EMR serverlessIl completamento porta alla pagina dei dettagli dell'applicazione in EMR Studio. Qui, scegli l'opzione Invia lavoro.

  3. Nella pagina Invia offerta di lavoro, completa quanto segue.

    • Nel campo Nome, inserisci il nome con cui vuoi chiamare il job run.

    • Nel campo Runtime role, inserisci il nome del ruolo in cui hai creatoCreare un ruolo Job Runtime.

    • Nel campo Posizione dello script, inserisci s3://amzn-s3-demo-bucket/scripts/wordcount.py come S3URI.

    • Nel campo Argomenti dello script, immettete["s3://amzn-s3-demo-bucket/emr-serverless-spark/output"].

    • Nella sezione delle proprietà di Spark, scegli Modifica come testo e inserisci le seguenti configurazioni.

      --conf spark.executor.cores=1 --conf spark.executor.memory=4g --conf spark.driver.cores=1 --conf spark.driver.memory=4g --conf spark.executor.instances=1
  4. Per avviare l'esecuzione del lavoro, scegli Invia lavoro.

  5. Nella scheda Job run, dovresti vedere il tuo nuovo job eseguito con lo stato Running.

Hive job run

In questa parte del tutorial, creiamo una tabella, inseriamo alcuni record ed eseguiamo una query di aggregazione del conteggio. Per eseguire il job Hive, devi prima creare un file che contenga tutte le query Hive da eseguire come parte di un singolo job, carica il file su S3 e specifica questo percorso S3 all'avvio del job Hive.

Per eseguire un job Hive
  1. Crea un file chiamato hive-query.ql che contenga tutte le query che desideri eseguire nel tuo job Hive.

    create database if not exists emrserverless; use emrserverless; create table if not exists test_table(id int); drop table if exists Values__Tmp__Table__1; insert into test_table values (1),(2),(2),(3),(3),(3); select id, count(id) from test_table group by id order by id desc;
  2. Carica hive-query.ql nel tuo bucket S3 con il seguente comando.

    aws s3 cp hive-query.ql s3://amzn-s3-demo-bucket/emr-serverless-hive/query/hive-query.ql
  3. Fase 1: Creare un'applicazione EMR serverlessIl completamento porta alla pagina dei dettagli dell'applicazione in EMR Studio. Qui, scegli l'opzione Invia lavoro.

  4. Nella pagina Invia offerta di lavoro, completa quanto segue.

    • Nel campo Nome, inserisci il nome con cui vuoi chiamare il job run.

    • Nel campo Runtime role, inserisci il nome del ruolo in cui hai creatoCreare un ruolo Job Runtime.

    • Nel campo Posizione dello script, inserisci s3://amzn-s3-demo-bucket/emr-serverless-hive/query/hive-query.ql come S3URI.

    • Nella sezione delle proprietà di Hive, scegli Modifica come testo e inserisci le seguenti configurazioni.

      --hiveconf hive.log.explain.output=false
    • Nella sezione Configurazione Job, scegli Modifica come JSON e inserisci quanto segueJSON.

      { "applicationConfiguration": [{ "classification": "hive-site", "properties": { "hive.exec.scratchdir": "s3://amzn-s3-demo-bucket/emr-serverless-hive/hive/scratch", "hive.metastore.warehouse.dir": "s3://amzn-s3-demo-bucket/emr-serverless-hive/hive/warehouse", "hive.driver.cores": "2", "hive.driver.memory": "4g", "hive.tez.container.size": "4096", "hive.tez.cpu.vcores": "1" } }] }
  5. Per avviare l'esecuzione del lavoro, scegli Invia lavoro.

  6. Nella scheda Job run, dovresti vedere il tuo nuovo job eseguito con lo stato Running.

Interactive workload

Con Amazon EMR 6.14.0 e versioni successive, puoi utilizzare notebook ospitati in EMR Studio per eseguire carichi di lavoro interattivi per Spark in modalità Serverless. EMR Per ulteriori informazioni, tra cui autorizzazioni e prerequisiti, consulta. Esegui carichi di lavoro interattivi con EMR Serverless tramite Studio EMR

Dopo aver creato l'applicazione e impostato le autorizzazioni richieste, utilizzate i seguenti passaggi per eseguire un taccuino interattivo con Studio: EMR

  1. Passa alla scheda Workspaces in EMR Studio. Se devi ancora configurare una posizione di archiviazione di Amazon S3 e il ruolo del servizio EMR Studio, seleziona il pulsante Configura studio nel banner nella parte superiore dello schermo.

  2. Per accedere a un notebook, seleziona un Workspace o crea un nuovo Workspace. Usa Avvio veloce per aprire il tuo spazio di lavoro in una nuova scheda.

  3. Vai alla scheda appena aperta. Seleziona l'icona Compute dalla barra di navigazione a sinistra. Seleziona EMR Serverless come tipo di elaborazione.

  4. Seleziona l'applicazione interattiva che hai creato nella sezione precedente.

  5. Nel campo Runtime role, inserisci il nome del IAM ruolo che l'applicazione EMR Serverless può assumere per l'esecuzione del job. Per ulteriori informazioni sui ruoli di runtime, consulta Job runtime roles nella Amazon EMR Serverless User Guide.

  6. Seleziona Allega. Questa operazione potrebbe richiedere fino a un minuto. La pagina verrà aggiornata una volta allegata.

  7. Scegliete un kernel e avviate un notebook. Puoi anche sfogliare taccuini di esempio su EMR Serverless e copiarli nel tuo Workspace. Per accedere ai taccuini di esempio, accedi al {...}menu nella barra di navigazione a sinistra e sfoglia i taccuini che contengono il nome del file del taccuino. serverless

  8. Nel notebook, puoi accedere al collegamento al registro dei driver e a un collegamento all'interfaccia utente di Apache Spark, un'interfaccia in tempo reale che fornisce metriche per monitorare il tuo lavoro. Per ulteriori informazioni, consulta Monitoring EMR Serverless Applications and Job nella Amazon EMR Serverless User Guide.

Quando colleghi un'applicazione a un'area di lavoro di Studio, l'avvio dell'applicazione si attiva automaticamente se non è già in esecuzione. È inoltre possibile preavviare l'applicazione e tenerla pronta prima di collegarla all'area di lavoro.

Passaggio 3: Visualizza l'interfaccia utente e i registri dell'applicazione

Per visualizzare l'interfaccia utente dell'applicazione, identificate innanzitutto il job eseguito. Un'opzione per l'interfaccia utente Spark o l'interfaccia utente Hive Tez è disponibile nella prima riga di opzioni per l'esecuzione del processo, in base al tipo di lavoro. Seleziona l'opzione appropriata.

Se hai scelto l'interfaccia utente Spark, scegli la scheda Executors per visualizzare i log dei driver e degli executors. Se hai scelto l'interfaccia utente di Hive Tez, scegli la scheda Tutte le attività per visualizzare i log.

Una volta che lo stato di esecuzione del processo viene visualizzato come Riuscito, puoi visualizzare l'output del processo nel tuo bucket S3.

Fase 4: pulizia

Sebbene l'applicazione che hai creato dovrebbe interrompersi automaticamente dopo 15 minuti di inattività, ti consigliamo comunque di rilasciare risorse che non intendi utilizzare più.

Per eliminare l'applicazione, vai alla pagina Elenco applicazioni. Seleziona l'applicazione che hai creato e scegli Azioni → Stop per interrompere l'applicazione. Dopo che l'applicazione è nello STOPPED stato, seleziona la stessa applicazione e scegli Azioni → Elimina.

Per altri esempi di esecuzione dei job Spark e Hive, consulta Offerte di lavoro Spark e. Lavori Hive