Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo dei processi Ray in AWS Glue
Questa sezione fornisce informazioni sull'utilizzo di AWS Glue per i processi Ray. Per ulteriori informazioni sulla scrittura di script AWS Glue per Ray, consulta la sezione Script di programmazione Ray.
Argomenti
Nozioni di base su AWS Glue per Ray
Per lavorare con AWS Glue per Ray, utilizzi le stesse funzionalità, i processi e le sessioni interattive di AWS Glue che useresti con AWS Glue per Spark. I processi AWS Glue sono progettati per eseguire lo stesso script a cadenza ricorrente, mentre le sessioni interattive sono progettate per consentire di eseguire frammenti di codice in sequenza sulle stesse risorse in provisioning.
AWS Glue ETL e Ray di sono diversi alla base, quindi nello script si avrà accesso a strumenti, funzionalità e configurazioni differenti. In quanto nuovo framework di calcolo gestito da AWS Glue, Ray ha un'architettura diversa e utilizza un vocabolario diverso per descrivere ciò che fa. Per ulteriori informazioni, consulta Whitepaper sull'architettura
Nota
AWS Glue per Ray è disponibile nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).
Processi Ray nella console AWS Glue Studio
Nella pagina Processi della console AWS Glue Studio, puoi selezionare una nuova opzione quando crei un processo in AWS Glue Studio: Editor di script Ray. Scegli questa opzione per creare un processo Ray nella console. Per ulteriori informazioni sui processi e sul relativo utilizzo, consulta la pagina Creazione di ETL lavori visivi con AWS Glue Studio.
Processi Ray nella AWS CLI e nell'SDK
I processi Ray nella AWS CLI utilizzano le stesse operazioni e parametri dell'SDK degli altri processi. AWS Glue per Ray introduce nuovi valori per determinati parametri. Per ulteriori informazioni sull'API Processi, consulta la pagina Processi.
Ambienti di runtime Ray supportati
Nei processi Spark, GlueVersion
determina le versioni di Apache Spark e Python disponibili in un processo AWS Glue per Spark. La versione di Python indica la versione supportata per i processi di tipo Spark. Questo non è il modo in cui sono configurati gli ambienti di runtime Ray.
Per i processi Ray, è necessario impostare GlueVersion
su 4.0
o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal campo Runtime
nella definizione del processo.
L'ambiente di runtime Ray2.4
sarà disponibile per un minimo di 6 mesi dopo il rilascio. Di pari passo con la rapida evoluzione di Ray, potrai incorporare aggiornamenti e miglioramenti di Ray nelle future versioni dell'ambiente di runtime.
Valori validi: Ray2.4
Valore di runtime | Versioni di Ray e Python |
---|---|
Ray2.4 (per AWS Glue 4.0 e versioni successive) |
Ray 2.4.0 Python 3.9 |
Informazioni aggiuntive
-
Per le note di rilascio che accompagnano le versioni di AWS Glue su Ray, consulta la pagina AWS Glue versioni.
-
Per le librerie Python disponibili in un ambiente di runtime, consulta la pagina Moduli disponibili con i processi Ray.
Contabilità per i worker nei processi Ray
AWS Glue esegue i processi Ray su nuovi tipi di worker EC2 basati su Graviton, disponibili solo per i processi Ray. Per fornire in modo appropriato questi worker per i carichi di lavoro per cui Ray è progettato, forniamo un rapporto diverso tra risorse di calcolo e risorse di memoria rispetto alla maggior parte dei worker. Per tenere conto di queste risorse, utilizziamo l'unità di elaborazione dati ottimizzata per la memoria (M-DPU) anziché l'unità di elaborazione dati standard (DPU).
-
Una M-DPU corrisponde a 4 vCPU e 32 GB di memoria.
-
Una DPU corrisponde a 4 vCPU e 16 GB di memoria. Le DPU vengono utilizzate per rendicontare le risorse disponibili in AWS Glue con i processi Spark e i worker corrispondenti.
I processi Ray attualmente hanno accesso a un tipo di worker, Z.2X
. Il worker Z.2X
esegue la mappatura su 2 M-DPU (8 vCPU, 64 GB di memoria) e dispone di 128 GB di spazio su disco. Una macchina Z.2X
fornisce 8 worker Ray (uno per vCPU).
Il numero di M-DPU che è possibile utilizzare contemporaneamente in un account è soggetto a una quota di servizio. Per ulteriori informazioni sui limiti degli account AWS Glue, consulta Endpoint e quote di AWS Glue.
Nella definizione del processo si specifica il numero di nodi worker disponibili per un processo Ray con --number-of-workers
(NumberOfWorkers)
. Per ulteriori informazioni sui valori di Ray nell'API Processi, consulta la pagina Processi.
È possibile specificare ulteriormente un numero minimo di worker che un processo Ray deve allocare con il parametro di processo --min-workers
. Per ulteriori informazioni sui parametri di processo, consulta Riferimento.