AWS Glue per Spark e AWS Glue per Ray - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWS Glue per Spark e AWS Glue per Ray

AWS Glue In Apache Spark (AWS Glue ETL), puoi usarlo per PySpark scrivere codice Python per gestire i dati su larga scala. Spark è una soluzione comune per questo problema, ma i data engineer con background incentrati su Python possono trovare la transizione poco intuitiva. Il DataFrame modello Spark non è perfettamente «Python», il che riflette il linguaggio Scala e il runtime Java su cui è basato.

In AWS Glue, puoi usare i job della shell Python per eseguire integrazioni di dati Python native. Questi processi vengono eseguiti su una singola EC2 istanza Amazon e sono limitati dalla capacità di tale istanza. Ciò limita la velocità di trasmissione effettiva dei dati che è possibile elaborare e diventa costoso da mantenere quando si tratta di Big Data.

AWS Glue for Ray ti consente di scalare i carichi di lavoro in Python senza investimenti sostanziali nell'apprendimento di Spark. È possibile sfruttare alcuni scenari in cui Ray si comporta meglio. Offrendoti una scelta, puoi utilizzare i punti di forza di Spark e Ray in base ai casi.

AWS Glue ETL e AWS Glue for Ray sono fondamentalmente diversi, quindi supportano funzionalità diverse. Controlla le documentazione per determinare le funzionalità supportate.

Cosa c'è AWS Glue per Ray?

Ray è un framework di calcolo distribuito open source che può essere utilizzato per scalare i carichi di lavoro, con particolare attenzione a Python. Per ulteriori informazioni su Ray, consulta il sito Web di Ray. AWS Glue I lavori Ray e le sessioni interattive ti consentono di utilizzare Ray all'interno AWS Glue.

Puoi usare AWS Glue for Ray per scrivere script Python per calcoli che verranno eseguiti in parallelo su più macchine. Nei processi e nelle sessioni interattive di Ray, è possibile utilizzare le librerie Python comuni come pandas per facilitare la scrittura e l'esecuzione dei flussi di lavoro. Per ulteriori informazioni sui set di dati di Ray, consulta Set di dati di Ray nella documentazione di Ray. Per ulteriori informazioni su Pandas, consulta il sito Web di Pandas.

Quando usi AWS Glue For Ray, puoi eseguire i flussi di lavoro di Pandas su Big Data su scala aziendale, con solo poche righe di codice. Puoi creare un job Ray dalla console o dall'SDK. AWS Glue AWS Puoi anche aprire una sessione AWS Glue interattiva per eseguire il codice in un ambiente Ray senza server. I lavori visivi in non AWS Glue Studio sono ancora supportati.

AWS Glue for Ray jobs ti consente di eseguire uno script in base a una pianificazione o in risposta a un evento di Amazon EventBridge. Jobs archivia le informazioni di registro e le statistiche di monitoraggio in CloudWatch modo da consentirti di comprendere lo stato e l'affidabilità dello script. Per ulteriori informazioni sul sistema dei AWS Glue job, vedereLavorare con Ray Jobs in AWS Glue.

Ray automatizza il lavoro di dimensionamento del codice Python distribuendo l'elaborazione su un cluster di macchine che riconfigura in tempo reale, in base al carico. Ciò può portare a un miglioramento delle prestazioni per dollaro di determinati carichi di lavoro. Con Ray jobs, abbiamo integrato la scalabilità automatica in modo nativo nel modello di AWS Glue lavoro, in modo da poter sfruttare appieno questa funzionalità. I lavori Ray vengono eseguiti su AWS Graviton, con conseguente aumento delle prestazioni complessive in termini di prezzo.

Oltre ai risparmi sui costi, è possibile utilizzare la scalabilità automatica nativa per eseguire i carichi di lavoro Ray senza investire tempo in operazioni di manutenzione, ottimizzazione e amministrazione del cluster. Puoi usare librerie open source familiari pronte all'uso, come pandas, e l'SDK per Pandas. AWS Questi migliorano la velocità di iterazione durante lo sviluppo su AWS Glue per Ray. Quando usi AWS Glue for Ray, sarai in grado di sviluppare ed eseguire rapidamente carichi di lavoro di integrazione dei dati a costi contenuti.