Utilizzo dei processi Ray in AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dei processi Ray in AWS Glue

Questa sezione fornisce informazioni sull'utilizzo di AWS Glue per i processi Ray. Per ulteriori informazioni sulla scrittura di script AWS Glue per Ray, consulta la sezione Script di programmazione Ray.

Nozioni di base su AWS Glue per Ray

Per lavorare con AWS Glue per Ray, utilizzi le stesse funzionalità, i processi e le sessioni interattive di AWS Glue che useresti con AWS Glue per Spark. I processi AWS Glue sono progettati per eseguire lo stesso script a cadenza ricorrente, mentre le sessioni interattive sono progettate per consentire di eseguire frammenti di codice in sequenza sulle stesse risorse in provisioning.

AWS Glue ETL e Ray di sono diversi alla base, quindi nello script si avrà accesso a strumenti, funzionalità e configurazioni differenti. In quanto nuovo framework di calcolo gestito da AWS Glue, Ray ha un'architettura diversa e utilizza un vocabolario diverso per descrivere ciò che fa. Per ulteriori informazioni, consulta Whitepaper sull'architettura nella documentazione di Ray.

Nota

AWS Glue per Ray è disponibile nelle Regioni Stati Uniti orientali (Virginia settentrionale), Stati Uniti orientali (Ohio), Stati Uniti occidentali (Oregon), Asia Pacifico (Tokyo) ed Europa (Irlanda).

Processi Ray nella console AWS Glue Studio

Nella pagina Processi della console AWS Glue Studio, puoi selezionare una nuova opzione quando crei un processo in AWS Glue Studio: Editor di script Ray. Scegli questa opzione per creare un processo Ray nella console. Per ulteriori informazioni sui processi e sul relativo utilizzo, consulta la pagina Creazione di ETL lavori visivi con AWS Glue Studio.

La pagina Processi in AWS Glue Studio, con l'opzione Editor di script Ray selezionata.

Processi Ray nella AWS CLI e nell'SDK

I processi Ray nella AWS CLI utilizzano le stesse operazioni e parametri dell'SDK degli altri processi. AWS Glue per Ray introduce nuovi valori per determinati parametri. Per ulteriori informazioni sull'API Processi, consulta la pagina Processi.

Ambienti di runtime Ray supportati

Nei processi Spark, GlueVersion determina le versioni di Apache Spark e Python disponibili in un processo AWS Glue per Spark. La versione di Python indica la versione supportata per i processi di tipo Spark. Questo non è il modo in cui sono configurati gli ambienti di runtime Ray.

Per i processi Ray, è necessario impostare GlueVersion su 4.0 o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal campo Runtime nella definizione del processo.

L'ambiente di runtime Ray2.4 sarà disponibile per un minimo di 6 mesi dopo il rilascio. Di pari passo con la rapida evoluzione di Ray, potrai incorporare aggiornamenti e miglioramenti di Ray nelle future versioni dell'ambiente di runtime.

Valori validi: Ray2.4

Valore di runtime Versioni di Ray e Python
Ray2.4 (per AWS Glue 4.0 e versioni successive)

Ray 2.4.0

Python 3.9

Informazioni aggiuntive

Contabilità per i worker nei processi Ray

AWS Glue esegue i processi Ray su nuovi tipi di worker EC2 basati su Graviton, disponibili solo per i processi Ray. Per fornire in modo appropriato questi worker per i carichi di lavoro per cui Ray è progettato, forniamo un rapporto diverso tra risorse di calcolo e risorse di memoria rispetto alla maggior parte dei worker. Per tenere conto di queste risorse, utilizziamo l'unità di elaborazione dati ottimizzata per la memoria (M-DPU) anziché l'unità di elaborazione dati standard (DPU).

  • Una M-DPU corrisponde a 4 vCPU e 32 GB di memoria.

  • Una DPU corrisponde a 4 vCPU e 16 GB di memoria. Le DPU vengono utilizzate per rendicontare le risorse disponibili in AWS Glue con i processi Spark e i worker corrispondenti.

I processi Ray attualmente hanno accesso a un tipo di worker, Z.2X. Il worker Z.2X esegue la mappatura su 2 M-DPU (8 vCPU, 64 GB di memoria) e dispone di 128 GB di spazio su disco. Una macchina Z.2X fornisce 8 worker Ray (uno per vCPU).

Il numero di M-DPU che è possibile utilizzare contemporaneamente in un account è soggetto a una quota di servizio. Per ulteriori informazioni sui limiti degli account AWS Glue, consulta Endpoint e quote di AWS Glue.

Nella definizione del processo si specifica il numero di nodi worker disponibili per un processo Ray con --number-of-workers (NumberOfWorkers). Per ulteriori informazioni sui valori di Ray nell'API Processi, consulta la pagina Processi.

È possibile specificare ulteriormente un numero minimo di worker che un processo Ray deve allocare con il parametro di processo --min-workers. Per ulteriori informazioni sui parametri di processo, consulta Riferimento.