Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Preparazione dei dati mediante sessioni interattive AWS Glue
AWS Glue interactive sessions è un servizio serverless che puoi utilizzare per raccogliere, trasformare, pulire e preparare i dati per l'archiviazione nei data lake e nelle pipeline di dati. AWS Glue le sessioni interattive forniscono un ambiente di runtime Apache Spark on-demand e senza server che puoi inizializzare in pochi secondi su un'unità di elaborazione dati dedicata (DPU) senza dover fornire e gestire una complessa infrastruttura di cluster di calcolo. Dopo l'inizializzazione, puoi sfogliare il catalogo AWS Glue dati, eseguire query di grandi dimensioni, accedere ai dati governati da e analizzare e preparare in modo interattivo i dati utilizzando Spark AWS Lake Formation, direttamente nei tuoi notebook Studio o Studio Classic. Puoi quindi utilizzare i dati preparati per addestrare, ottimizzare e distribuire i modelli utilizzando gli strumenti di machine learning appositamente progettati all'interno di Studio o Studio Classic. SageMaker Se desideri un servizio Spark serverless con un controllo moderato della configurabilità e della flessibilità, dovresti prendere in considerazione le sessioni AWS Glue interattive per i carichi di lavoro di preparazione dei dati.
È possibile avviare una sessione AWS Glue interattiva avviando un JupyterLab notebook in Studio o Studio Classic. Quando avvii il notebook, scegli il sistema integrato Glue
PySpark and Ray
o il Glue Spark
kernel. Questo avvia automaticamente una sessione Spark interattiva e senza server. Non è necessario fornire o gestire alcun cluster o infrastruttura di elaborazione. Dopo l'inizializzazione, è possibile esplorare e interagire con i dati direttamente dai notebook Studio o Studio Classic.
Prima di iniziare la sessione AWS Glue interattiva in Studio o Studio Classic, devi impostare i ruoli e le politiche appropriati. Inoltre, potrebbe essere necessario fornire l'accesso a risorse aggiuntive, come un bucket di storage Amazon S3. Per ulteriori informazioni sulle IAM politiche richieste, consulta. Autorizzazioni per sessioni AWS Glue interattive in Studio o Studio Classic
Studio e Studio Classic forniscono una configurazione predefinita per la sessione AWS Glue interattiva, tuttavia, puoi utilizzare il catalogo completo AWS Glue di comandi magici di Jupyter per personalizzare ulteriormente il tuo ambiente. Per informazioni sui Jupyter magics predefiniti e aggiuntivi che puoi usare nella tua sessione interattiva, consulta. AWS Glue Configura la tua sessione AWS Glue interattiva in Studio o Studio Classic
-
Gli utenti di Studio Classic che avviano una sessione AWS Glue interattiva, possono scegliere tra le seguenti immagini e kernel:
-
Immagini:,
SparkAnalytics 1.0
SparkAnalytics 2.0
-
Kernel:
Glue Python [PySpark and Ray]
eGlue Spark
-
-
Per gli utenti di Studio, utilizzate l'immagine di SageMaker distribuzione
predefinita e selezionate uno Glue Python [PySpark and Ray]
o unGlue Spark
kernel.