Preparazione dei dati con Amazon EMR - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Preparazione dei dati con Amazon EMR

Importante

Amazon SageMaker Studio e Amazon SageMaker Studio Classic sono due degli ambienti di apprendimento automatico con cui puoi interagire SageMaker.

Se il tuo dominio è stato creato dopo il 30 novembre 2023, Studio è la tua esperienza predefinita.

Se il tuo dominio è stato creato prima del 30 novembre 2023, Amazon SageMaker Studio Classic è la tua esperienza predefinita. Per utilizzare Studio se Amazon SageMaker Studio Classic è la tua esperienza predefinita, consultaMigrazione da Amazon SageMaker Studio Classic.

Quando esegui la migrazione da Amazon SageMaker Studio Classic ad Amazon SageMaker Studio, non si verifica alcuna perdita nella disponibilità delle funzionalità. Studio Classic esiste anche come applicazione all'interno di Amazon SageMaker Studio per aiutarti a eseguire i flussi di lavoro di machine learning esistenti.

Amazon SageMaker Studio e Studio Classic sono dotati di integrazione integrata con Amazon EMR. All'interno JupyterLab dei notebook Studio Classic, data scientist e data engineer possono scoprire e connettersi ai EMR cluster Amazon esistenti, quindi esplorare, visualizzare e preparare in modo interattivo dati su larga scala per l'apprendimento automatico utilizzando Apache Spark, Apache Hive o Presto. Con un solo clic, possono accedere all'interfaccia utente di Spark per monitorare lo stato e le metriche dei loro lavori Spark senza lasciare il notebook.

Gli amministratori possono creare AWS CloudFormation modelli che definiscono i EMR cluster Amazon. Possono quindi rendere tali modelli di cluster disponibili AWS Service Catalogper l'avvio degli utenti di Studio e Studio Classic. I data scientist possono quindi scegliere un modello predefinito per il provisioning autonomo di un EMR cluster Amazon direttamente dal loro ambiente Studio. Gli amministratori possono parametrizzare ulteriormente i modelli per consentire agli utenti di scegliere gli aspetti del cluster all'interno di valori predefiniti. Ad esempio, gli utenti potrebbero voler specificare il numero di nodi principali o selezionare il tipo di istanza di un nodo da un menu a discesa.

Utilizzando AWS CloudFormation, gli amministratori possono controllare la configurazione organizzativa, di sicurezza e di rete dei EMR cluster Amazon. I data scientist e gli ingegneri dei dati possono quindi personalizzare questi modelli per i loro carichi di lavoro per creare EMR cluster Amazon on-demand direttamente da Studio e Studio Classic senza configurare configurazioni complesse. Gli utenti possono chiudere i EMR cluster Amazon dopo l'uso.