Connect a un EMR cluster Amazon da SageMaker Studio o Studio Classic - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Connect a un EMR cluster Amazon da SageMaker Studio o Studio Classic

I data scientist e gli ingegneri dei dati possono scoprire e quindi connettersi a un EMR cluster Amazon direttamente dall'interfaccia utente di Studio. Prima di iniziare, assicurati di aver configurato le autorizzazioni necessarie come descritto nella Passaggio 4: configura le autorizzazioni per abilitare la pubblicazione e l'avvio di EMR cluster Amazon da Studio sezione. Queste autorizzazioni garantiscono a Studio la possibilità di creare, avviare, visualizzare, accedere e terminare i cluster.

Puoi connettere un EMR cluster Amazon a un nuovo JupyterLab notebook direttamente dall'interfaccia utente di Studio o scegliere di avviare la connessione in un notebook di un' JupyterLab applicazione in esecuzione.

Importante

Puoi scoprire e connetterti ai EMR cluster Amazon solo per applicazioni Studio Classic JupyterLab e lanciate da spazi privati. Assicurati che EMR i cluster Amazon si trovino nella stessa AWS regione del tuo ambiente Studio. Il tuo JupyterLab spazio deve utilizzare una versione dell'immagine di SageMaker distribuzione 1.10 o superiore.

Connettiti a un EMR cluster Amazon utilizzando l'interfaccia utente di Studio

Per connetterti al cluster utilizzando l'interfaccia utente Studio o Studio Classic, puoi avviare una connessione dall'elenco dei cluster a cui si accede in Elenca EMR i cluster Amazon da Studio o Studio Classic o da un notebook in SageMaker Studio o Studio Classic.

Per connettere un EMR cluster Amazon a un nuovo JupyterLab notebook dall'interfaccia utente di Studio:
  1. Nel pannello sinistro dell'interfaccia utente di Studio, seleziona il nodo Dati nel menu di navigazione a sinistra. Passa alle EMRapplicazioni e ai cluster Amazon. Si apre una pagina che elenca EMR i cluster Amazon a cui puoi accedere da Studio nella scheda Amazon EMR clusters.

    Nota

    Se tu o il tuo amministratore avete configurato le autorizzazioni per consentire l'accesso tra account diversi ai EMR cluster Amazon, potete visualizzare un elenco consolidato di cluster in tutti gli account a cui avete concesso l'accesso a Studio.

  2. Seleziona un EMR cluster Amazon che desideri connettere a un nuovo notebook, quindi scegli Collega al notebook. Si apre una finestra modale che mostra l'elenco dei tuoi JupyterLab spazi.

    • Seleziona lo spazio da cui desideri avviare un' JupyterLabapplicazione, quindi scegli Apri notebook. Questo avvia un' JupyterLab applicazione dallo spazio prescelto e apre un nuovo taccuino.

      Nota

      Gli utenti di Studio Classic devono selezionare un'immagine e un kernel. Per un elenco delle immagini supportate, consulta Immagini e kernel supportati per la connessione a un EMR cluster Amazon da Studio o Studio Classic o fai riferimento a Portare la propria immagine.

    • In alternativa, puoi creare un nuovo spazio privato scegliendo il pulsante Crea nuovo spazio nella parte superiore della finestra modale. Inserisci un nome per il tuo spazio, quindi scegli Crea spazio e apri il taccuino. Questo crea uno spazio privato con il tipo di istanza predefinito e l'immagine di SageMaker distribuzione più recente disponibile, avvia un' JupyterLabapplicazione e apre un nuovo notebook.

  3. Se il cluster selezionato non utilizza Kerberos o l'autenticazione con ruolo di runtime LDAP, Studio richiede di selezionare il tipo di credenziale. Scegli tra Autenticazione di base HTTP o Nessuna credenziale, quindi, se del caso, inserisci le tue credenziali.

    Se il cluster selezionato supporta i ruoli di runtime, scegli il nome del IAM ruolo che il EMR cluster Amazon può assumere per l'esecuzione del job.

    Importante

    Per connettere correttamente un JupyterLab notebook a un EMR cluster Amazon che supporta i ruoli di runtime, devi prima associare l'elenco dei ruoli di runtime al tuo dominio o profilo utente, come indicato inConfigurazione dei ruoli IAM di runtime per l'accesso al EMR cluster Amazon in Studio . Il mancato completamento di questo passaggio ti impedirà di stabilire la connessione.

    Dopo la selezione, un comando di connessione popola la prima cella del notebook e avvia la connessione con il cluster AmazonEMR.

    Una volta completata la connessione, un messaggio conferma la connessione e l'avvio dell'applicazione Spark.

In alternativa, puoi connetterti a un cluster da un notebook JupyterLab o Studio Classic.
  1. Scegli il pulsante Cluster nella parte superiore del notebook. Si apre una finestra modale che elenca EMR i cluster Amazon in uno Running stato a cui puoi accedere. Puoi vedere i EMR cluster Running Amazon nella scheda Amazon EMR clusters.

    Nota

    Per gli utenti di Studio Classic, Cluster è visibile solo quando si utilizza un kernel da Immagini e kernel supportati per la connessione a un EMR cluster Amazon da Studio o Studio Classic o verso. Portare la propria immagine Se non riesci a visualizzare Cluster nella parte superiore del notebook, assicurati che l'amministratore abbia configurato la rilevabilità dei cluster e passa a un kernel supportato.

  2. Seleziona il cluster a cui connetterti, quindi scegli Connessione.

  3. Se hai configurato i tuoi EMR cluster Amazon per supportare i IAMruoli di runtime, puoi selezionare il tuo ruolo dal menu a discesa del ruolo di EMR esecuzione di Amazon.

    Importante

    Per connettere correttamente un JupyterLab notebook a un EMR cluster Amazon che supporta i ruoli di runtime, devi prima associare l'elenco dei ruoli di runtime al tuo dominio o profilo utente, come indicato inConfigurazione dei ruoli IAM di runtime per l'accesso al EMR cluster Amazon in Studio . Il mancato completamento di questo passaggio ti impedirà di stabilire la connessione.

    Altrimenti, se il cluster scelto non utilizza Kerberos o l'autenticazione con ruolo di runtimeLDAP, Studio o Studio Classic richiede di selezionare il tipo di credenziale. Puoi scegliere l'autenticazione di HTTPbase o Nessuna credenziale.

  4. Studio aggiunge e quindi esegue un blocco di codice su una cella attiva per stabilire la connessione. Questa cella contiene il comando magico di connessione per connettere il notebook all'applicazione in base al tipo di autenticazione.

    Una volta completata la connessione, un messaggio conferma la connessione e l'avvio dell'applicazione Spark.

Connettiti a un EMR cluster Amazon utilizzando un comando di connessione

Per stabilire una connessione a un EMR cluster Amazon, puoi eseguire comandi di connessione all'interno di una cella notebook.

Quando stabilisci la connessione, puoi autenticarti utilizzando Kerberos, Lightweight Directory Access Protocol (LDAP) o l'autenticazione con ruolo di runtime IAM. Il metodo di autenticazione scelto dipende dalla configurazione del cluster.

Puoi fare riferimento a questo esempio Access Apache Livy utilizzando un Network Load Balancer su un EMR cluster Amazon abilitato per Kerberos per configurare un cluster Amazon che utilizza l'autenticazione Kerberos. EMR In alternativa, puoi esplorare i modelli di CloudFormation esempio che utilizzano Kerberos o l'autenticazione nel repository aws-samples/. LDAP sagemaker-studio-emr GitHub

Se l'amministratore ha abilitato l'accesso tra account diversi, puoi connetterti al tuo EMR cluster Amazon da un notebook Studio Classic, indipendentemente dal fatto che l'applicazione Studio Classic e il cluster risiedano nello stesso AWS account o in account diversi.

Per ciascuno dei seguenti tipi di autenticazione, utilizza il comando specificato per connetterti al cluster dal tuo notebook Studio o Studio Classic.

  • Kerberos

    Aggiungi l'--assumable-role-arnargomento se hai bisogno di un accesso Amazon EMR su più account. Aggiungi l'--verify-certificateargomento se ti connetti al tuo cluster con. HTTPS

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Kerberos --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • LDAP

    Aggiungi l'--assumable-role-arnargomento se hai bisogno di un accesso Amazon EMR su più account. Aggiungi l'--verify-certificateargomento se ti connetti al tuo cluster con. HTTPS

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • NoAuth

    Aggiungi l'--assumable-role-arnargomento se hai bisogno di un accesso Amazon EMR su più account. Aggiungi l'--verify-certificateargomento se ti connetti al tuo cluster con. HTTPS

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type None --language python [--assumable-role-arn EMR_access_role_ARN ] [--verify-certificate /home/user/certificateKey.pem]
  • Ruoli di runtime IAM

    Aggiungi l'--assumable-role-arnargomento se hai bisogno di un accesso Amazon EMR su più account. Aggiungi l'--verify-certificateargomento se ti connetti al tuo cluster con. HTTPS

    Per ulteriori informazioni sulla connessione a un EMR cluster Amazon utilizzando IAM i ruoli di runtime, consultaConfigurazione dei ruoli IAM di runtime per l'accesso al EMR cluster Amazon in Studio .

    %load_ext sagemaker_studio_analytics_extension.magics %sm_analytics emr connect --cluster-id cluster_id \ --auth-type Basic_Access \ --emr-execution-role-arn arn:aws:iam::studio_account_id:role/emr-execution-role-name [--assumable-role-arn EMR_access_role_ARN] [--verify-certificate /home/user/certificateKey.pem]

Connect a un EMR cluster Amazon tramite HTTPS

Se hai configurato il tuo EMR cluster Amazon con la crittografia di transito abilitata e il server Apache Livy per HTTPS e desideri che Studio o Studio Classic comunichino EMR con Amazon utilizzandoHTTPS, devi configurare Studio o Studio Classic per accedere alla chiave del certificato.

Per i certificati autofirmati o firmati dall'autorità di certificazione (CA) locale, puoi farlo in due fasi:

  1. Scarica il PEM file del certificato sul tuo file system locale utilizzando una delle seguenti opzioni:

  2. Abilita la convalida del certificato fornendo il percorso al certificato nell'argomento --verify-certificate del comando di connessione.

    %sm_analytics emr connect --cluster-id cluster_id \ --verify-certificate /home/user/certificateKey.pem ...

Per i certificati pubblici emessi da CA, imposta la convalida del certificato configurando il parametro --verify-certificate su true.

In alternativa, è possibile disabilitare la convalida del certificato impostando il parametro --verify-certificate su false.

Puoi trovare l'elenco dei comandi di connessione disponibili a un EMR cluster Amazon inConnettiti a un EMR cluster Amazon utilizzando un comando di connessione.