Preparare i dati utilizzando EMR Serverless - Amazon SageMaker AI

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparare i dati utilizzando EMR Serverless

A partire dalla versione con immagine di SageMaker distribuzione1.10, Amazon SageMaker Studio si integra con EMR Serverless. All'interno dei JupyterLab notebook di SageMaker Studio, i data scientist e gli ingegneri dei dati possono scoprire e connettersi alle applicazioni EMR Serverless, quindi esplorare, visualizzare e preparare in modo interattivo carichi di lavoro Apache Spark o Apache Hive su larga scala. Questa integrazione consente di eseguire la preelaborazione interattiva dei dati su larga scala in preparazione all'addestramento e all'implementazione dei modelli ML.

In particolare, la versione aggiornata della sagemaker-studio-analytics-extensionversione con immagine di distribuzione SageMaker AI 1.10 sfrutta l'integrazione tra Apache Livy ed EMR Serverless, consentendo la connessione a un endpoint Apache Livy tramite notebook. JupyterLab Questa sezione presuppone una conoscenza pregressa delle applicazioni interattive EMR Serverless.

Importante

Quando si utilizza Studio, è possibile scoprire e connettersi alle applicazioni EMR Serverless solo per JupyterLab applicazioni avviate da spazi privati. Assicurati che le applicazioni EMR Serverless si trovino nella stessa AWS area del tuo ambiente Studio.

Prerequisiti

Prima di iniziare a eseguire carichi di lavoro interattivi con EMR Serverless dai JupyterLab tuoi notebook, assicurati di soddisfare i seguenti prerequisiti:

  1. Il tuo JupyterLab spazio deve utilizzare una versione dell'immagine di distribuzione o superiore. SageMaker 1.10

  2. Crea un'applicazione interattiva EMR Serverless con una versione Amazon EMR o superiore. 6.14.0 È possibile creare un'applicazione EMR Serverless dall'interfaccia utente di Studio seguendo la procedura riportata di seguito. Crea applicazioni EMR Serverless da Studio

    Nota

    Per la configurazione più semplice, è possibile creare l'applicazione EMR Serverless nell'interfaccia utente di Studio senza modificare le impostazioni predefinite per l'opzione Virtual private cloud (VPC). Ciò consente di creare l'applicazione all'interno del VPC del dominio senza richiedere alcuna configurazione di rete. In questo caso, puoi saltare il seguente passaggio di configurazione della rete.

  3. Rivedi i requisiti di rete e sicurezza inConfigura l'accesso alla rete per il tuo cluster Amazon EMR. In particolare, assicurati di:

    • Stabilisci una connessione peering VPC tra il tuo account Studio e il tuo account EMR Serverless.

    • Aggiungi percorsi alle tabelle di routing delle sottoreti private in entrambi gli account.

    • Configura il gruppo di sicurezza collegato al tuo dominio Studio per consentire il traffico in uscita e configura il gruppo di sicurezza del VPC su cui intendi eseguire le applicazioni EMR Serverless per consentire il traffico TCP in entrata dal gruppo di sicurezza dell'istanza Studio.

  4. Per accedere alle applicazioni interattive su EMR Serverless ed eseguire carichi di lavoro inviati dai JupyterLab notebook in SageMaker Studio, è necessario assegnare autorizzazioni e ruoli specifici. Consulta la Configura le autorizzazioni per abilitare la pubblicazione e l'avvio di applicazioni Amazon EMR da Studio SageMaker sezione per i dettagli sui ruoli e le autorizzazioni necessari.