Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Controlla un'istanza Amazon EMR Spark utilizzando un notebook
Importante
IAMLe politiche personalizzate che consentono ad Amazon SageMaker Studio o Amazon SageMaker Studio Classic di creare SageMaker risorse Amazon devono inoltre concedere le autorizzazioni per aggiungere tag a tali risorse. L'autorizzazione per aggiungere tag alle risorse è necessaria perché Studio e Studio Classic taggano automaticamente tutte le risorse che creano. Se una IAM politica consente a Studio e Studio Classic di creare risorse ma non consente l'aggiunta di tag, si possono verificare errori AccessDenied "" durante il tentativo di creare risorse. Per ulteriori informazioni, consulta Fornisci le autorizzazioni per SageMaker etichettare le risorse AI.
AWS politiche gestite per Amazon SageMaker AIche concedono le autorizzazioni per creare SageMaker risorse includono già le autorizzazioni per aggiungere tag durante la creazione di tali risorse.
È possibile utilizzare un'istanza di notebook creata con uno script di configurazione del ciclo di vita personalizzato per accedere ai AWS servizi dal notebook. Ad esempio, puoi creare uno script che ti permetta di utilizzare il tuo notebook con Sparkmagic per controllare altre AWS risorse, come un'EMRistanza Amazon. È quindi possibile utilizzare l'EMRistanza Amazon per elaborare i dati anziché eseguire l'analisi dei dati sul notebook. Ciò consente di creare un'istanza del notebook più piccola perché non la si utilizzerà per elaborare i dati. Ciò è utile quando si dispone di set di dati di grandi dimensioni che richiederebbero un'istanza del notebook di grandi dimensioni per elaborare i dati.
Il processo richiede tre procedure utilizzando la console Amazon SageMaker AI:
-
Crea l'istanza Amazon EMR Spark
-
Creazione del notebook Jupyter
-
Verifica la connessione notebook-to-Amazon EMR
Per creare un'istanza Amazon EMR Spark che può essere controllata da un notebook utilizzando Sparkmagic
Apri la EMR console Amazon all'indirizzo https://console.aws.amazon.com/elasticmapreduce/
. -
Nel riquadro di navigazione, scegli Crea cluster.
-
Nella pagina Create Cluster - Opzioni rapide, in Configurazione software, scegli Spark: Spark 2.4.4 su Hadoop 2.8.5 con Ganglia 3.7.2 e Zeppelin 0.8.2 YARN.
-
Imposta i parametri aggiuntivi nella pagina e quindi scegli Crea cluster.
-
Nella pagina Cluster scegli il nome del cluster creato. Annota il Master PublicDNS, il gruppo di sicurezza del master e il nome e l'ID di sottorete in cui è stato EMR creato il cluster. VPC EMR Questi valori verranno utilizzati quando si crea un notebook.
Per creare un notebook che utilizzi Sparkmagic per controllare un'istanza Amazon EMR Spark
Apri la console Amazon SageMaker AI all'indirizzo https://console.aws.amazon.com/sagemaker/
. -
Nel riquadro di navigazione, in Istanze del notebook, scegli Crea notebook.
-
Immetti il nome dell'istanza del notebook e scegli il tipo di istanza.
-
Scegli Configurazione aggiuntiva, quindi in Configurazione ciclo di vita, scegli Crea una nuova configurazione del ciclo di vita.
-
Aggiungi il codice seguente allo script di configurazione del ciclo di vita:
# OVERVIEW # This script connects an Amazon EMR cluster to an Amazon SageMaker notebook instance that uses Sparkmagic. # # Note that this script will fail if the Amazon EMR cluster's master node IP address is not reachable. # 1. Ensure that the EMR master node IP is resolvable from the notebook instance. # One way to accomplish this is to have the notebook instance and the Amazon EMR cluster in the same subnet. # 2. Ensure the EMR master node security group provides inbound access from the notebook instance security group. # Type - Protocol - Port - Source # Custom TCP - TCP - 8998 - $NOTEBOOK_SECURITY_GROUP # 3. Ensure the notebook instance has internet connectivity to fetch the SparkMagic example config. # # https://aws.amazon.com/blogs/machine-learning/build-amazon-sagemaker-notebooks-backed-by-spark-in-amazon-emr/ # PARAMETERS EMR_MASTER_IP=your.emr.master.ip cd /home/ec2-user/.sparkmagic echo "Fetching Sparkmagic example config from GitHub..." wget https://raw.githubusercontent.com/jupyter-incubator/sparkmagic/master/sparkmagic/example_config.json echo "Replacing EMR master node IP in Sparkmagic config..." sed -i -- "s/localhost/$EMR_MASTER_IP/g" example_config.json mv example_config.json config.json echo "Sending a sample request to Livy.." curl "$EMR_MASTER_IP:8998/sessions"
-
Nella
PARAMETERS
sezione dello script, sostituisciloyour.emr.master.ip
con il DNS nome pubblico principale per l'EMRistanza Amazon. -
Scegli Crea configurazione.
-
Nella pagina Crea notebook scegli Rete - facoltativa.
-
Scegli la sottorete VPC e in cui si trova l'EMRistanza Amazon.
-
Scegli il gruppo di sicurezza utilizzato dal nodo EMR master Amazon.
-
Scegli Crea un'istanza del notebook.
Durante la creazione dell'istanza del notebook, lo stato è Pending. Dopo che l'istanza è stata creata e lo script di configurazione del ciclo di vita è stato eseguito correttamente, lo stato è. InService
Nota
Se l'istanza notebook non riesce a connettersi all'EMRistanza Amazon, l' SageMaker intelligenza artificiale non può creare l'istanza notebook. La connessione può fallire se l'EMRistanza e il notebook Amazon non si trovano nella stessa VPC sottorete, se il gruppo di sicurezza EMR principale Amazon non viene utilizzato dal notebook o se il DNS nome Master Public nello script non è corretto.
Per testare la connessione tra l'EMRistanza Amazon e il notebook
-
Quando lo stato del notebook è impostato InService, scegli Apri Jupyter per aprirlo.
-
Scegli Nuovo, quindi scegli Sparkmagic (). PySpark
-
Nella cella di codice immetti
%%info
ed esegui la cella.L'output visualizzato dovrebbe essere simile al seguente
Current session configs: {'driverMemory': '1000M', 'executorCores': 2, 'kind': 'pyspark'} No active sessions.