Esegui carichi di lavoro interattivi con EMR Serverless tramite Studio EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui carichi di lavoro interattivi con EMR Serverless tramite Studio EMR

Panoramica

Un'applicazione interattiva è un'applicazione EMR serverless con funzionalità interattive abilitate. Con le applicazioni interattive Amazon EMR Serverless, puoi eseguire carichi di lavoro interattivi con notebook Jupyter gestiti in Amazon Studio. EMR Questo aiuta i data engineer, i data scientist e gli analisti di dati a utilizzare EMR Studio per eseguire analisi interattive con set di dati in archivi di dati come Amazon S3 e Amazon DynamoDB.

I casi d'uso per applicazioni interattive in EMR Serverless includono i seguenti:

  • I data engineer utilizzano l'IDEesperienza di EMR Studio per creare uno ETL script. Lo script acquisisce i dati dall'ambiente locale, li trasforma per l'analisi e li archivia in Amazon S3.

  • I data scientist utilizzano i notebook per esplorare i set di dati e addestrare modelli di apprendimento automatico (ML) per rilevare anomalie nei set di dati.

  • Gli analisti di dati esplorano i set di dati e creano script che generano report giornalieri per aggiornare applicazioni come i dashboard aziendali.

Prerequisiti

Per utilizzare carichi di lavoro interattivi con EMR Serverless, devi soddisfare i seguenti requisiti:

  • EMRLe applicazioni interattive serverless sono supportate con Amazon EMR 6.14.0 e versioni successive.

  • Per accedere alla tua applicazione interattiva, eseguire i carichi di lavoro inviati ed eseguire notebook interattivi da EMR Studio, hai bisogno di autorizzazioni e ruoli specifici. Per ulteriori informazioni, consulta Autorizzazioni richieste per i carichi di lavoro interattivi.

Autorizzazioni richieste per i carichi di lavoro interattivi

Oltre alle autorizzazioni di base necessarie per accedere a EMR Serverless, devi configurare autorizzazioni aggiuntive per la tua identità o il tuo ruolo: IAM

Per accedere alla tua applicazione interattiva

Configura le autorizzazioni utente e Workspace per EMR Studio. Per ulteriori informazioni, consulta Configurare le autorizzazioni utente di EMR Studio nella Amazon EMR Management Guide.

Per eseguire i carichi di lavoro inviati con Serverless EMR

Imposta un ruolo di job runtime. Per ulteriori informazioni, consulta Creare un ruolo Job Runtime.

Per eseguire i taccuini interattivi di Studio EMR

Aggiungi le seguenti autorizzazioni aggiuntive alla IAM politica per gli utenti di Studio:

  • emr-serverless:AccessInteractiveEndpoints- Concede l'autorizzazione per accedere e connettersi all'applicazione interattiva specificata come. Resource Questa autorizzazione è necessaria per collegarsi a un'applicazione EMR Serverless da uno EMR Studio Workspace.

  • iam:PassRole- Concede l'autorizzazione ad accedere al ruolo di IAM esecuzione che intendi utilizzare quando ti colleghi a un'applicazione. È richiesta l'PassRoleautorizzazione appropriata per collegarsi a un'applicazione EMR Serverless da uno EMR Studio Workspace.

{ "Version": "2012-10-17", "Statement": [ { "Sid": "EMRServerlessInteractiveAccess", "Effect": "Allow", "Action": "emr-serverless:AccessInteractiveEndpoints", "Resource": "arn:aws:emr-serverless:Region:account:/applications/*" }, { "Sid": "EMRServerlessRuntimeRoleAccess", "Effect": "Allow", "Action": "iam:PassRole", "Resource": "interactive-execution-role-ARN", "Condition": { "StringLike": { "iam:PassedToService": "emr-serverless.amazonaws.com" } } } ] }

Configurazione di applicazioni interattive

Utilizza i seguenti passaggi di alto livello per creare un'applicazione EMR Serverless con funzionalità interattive di Amazon EMR Studio nel AWS Management Console.

  1. Segui i passaggi indicati Guida introduttiva ad Amazon EMR Serverless per creare un'applicazione.

  2. Quindi, avvia un'area di lavoro da EMR Studio e collegala a un'applicazione EMR Serverless come opzione di elaborazione. Per ulteriori informazioni, consulta la scheda Carico di lavoro interattivo nella fase 2 della documentazione EMRServerless Getting Started.

Quando si collega un'applicazione a Studio Workspace, l'avvio dell'applicazione si attiva automaticamente se non è già in esecuzione. È inoltre possibile preavviare l'applicazione e tenerla pronta prima di collegarla al Workspace.

Considerazioni sulle applicazioni interattive

  • EMRLe applicazioni interattive serverless sono supportate con Amazon EMR 6.14.0 e versioni successive.

  • EMRStudio è l'unico client integrato con le applicazioni interattive EMR Serverless. Le seguenti funzionalità di EMR Studio non sono supportate dalle applicazioni interattive EMR Serverless: collaborazione in Workspace, SQL Explorer ed esecuzione programmatica di notebook.

  • Le applicazioni interattive sono supportate solo per il motore Spark.

  • Le applicazioni interattive supportano i kernel Python 3 PySpark e Spark Scala.

  • È possibile eseguire fino a 25 notebook simultanei su una singola applicazione interattiva.

  • Non esiste un endpoint o un'APIinterfaccia che supporti notebook Jupyter ospitati autonomamente con applicazioni interattive.

  • Per un'esperienza di avvio ottimizzata, si consiglia di configurare la capacità preinizializzata per driver ed esecutori e di preavviare l'applicazione. Quando preavvii l'applicazione, ti assicuri che sia pronta quando desideri collegarla al tuo Workspace.

    aws emr-serverless start-application \ --application-id your-application-id
  • Per impostazione predefinita, autoStopConfig è abilitato per le applicazioni. Questa operazione chiude l'applicazione dopo 30 minuti di inattività. Puoi modificare questa configurazione come parte della tua richiestacreate-application. update-application

  • Quando si utilizza un'applicazione interattiva, si consiglia di configurare una capacità preinizializzata di kernel, driver ed esecutori per far funzionare i notebook. Ogni sessione interattiva Spark richiede un kernel e un driver, quindi EMR Serverless mantiene un kernel worker preinizializzato per ogni driver preinizializzato. Per impostazione predefinita, EMR Serverless mantiene la capacità preinizializzata di un kernel worker per l'intera applicazione anche se non si specifica alcuna capacità preinizializzata per i driver. Ogni kernel worker utilizza 4 v e 16 GB di memoria. CPU Per informazioni aggiornate sui prezzi, consulta la pagina EMRdei prezzi di Amazon.

  • Devi avere una quota di CPU servizio v sufficiente nel tuo Account AWS per eseguire carichi di lavoro interattivi. Se non esegui carichi di lavoro compatibili con Lake Formation, ti consigliamo almeno 24 v. CPU Se lo fai, ti consigliamo almeno 28 v. CPU

  • EMRServerless interrompe automaticamente i kernel dai notebook se sono rimasti inattivi per più di 60 minuti. EMRServerless calcola il tempo di inattività del kernel a partire dall'ultima attività completata durante la sessione del notebook. Al momento non è possibile modificare l'impostazione del timeout di inattività del kernel.

  • Per abilitare Lake Formation con carichi di lavoro interattivi, imposta la configurazione spark.emr-serverless.lakeformation.enabled su true sotto la spark-defaults classificazione nell'runtime-configurationoggetto quando crei un'applicazione EMR Serverless. Per ulteriori informazioni sull'abilitazione di Lake Formation in EMR Serverless, consulta Enabling Lake Formation in Amazon EMR.