Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Connessione ai dati nei processi Ray
I processi AWS Glue Ray possono utilizzare un'ampia gamma di pacchetti Python progettati per integrare rapidamente i dati. Forniamo un set minimo di dipendenze per non appesantire l'ambiente. Per ulteriori informazioni sui componenti inclusi in modo predefinito, consulta la pagina Moduli disponibili con i processi Ray.
Nota
AWS Glueextract, transform, and load (ETL) fornisce l' DynamicFrame astrazione per semplificare i flussi di lavoro ETL in cui risolvi le differenze di schema tra le righe del set di dati. AWS Glue ETL offre funzionalità aggiuntive, segnalibri di processo e raggruppamento dei file di input. Al momento non forniamo funzionalità corrispondenti nei processi Ray.
AWS Glue per Spark fornisce supporto diretto per la connessione a determinati formati di dati, origini e sink. In Ray, l'SDK AWS per pandas e le attuali librerie di terze parti soddisfano sostanzialmente questa esigenza. Dovrai consultare tali librerie per capire quali funzionalità sono disponibili.
L'integrazione di AWS Glue per Ray con Amazon VPC non è attualmente disponibile. Le risorse in Amazon VPC non saranno accessibili senza un percorso pubblico. Per ulteriori informazioni sull'utilizzo di AWS Glue con i VPC di Amazon, consulta la pagina Configurazione degli VPC endpoint dell'interfaccia (AWS PrivateLink) per AWS Glue ()AWS PrivateLink.
Librerie comuni per lavorare con i dati in Ray
Ray Data: Ray Data fornisce metodi per gestire formati di dati, origini e sink comuni. Per ulteriori informazioni sui formati e le origini supportati in Ray Data, consulta la sezione Input/Output
Ray fornisce alcune indicazioni sui casi d'uso in cui Ray Data potrebbe essere la soluzione migliore per il processo. Per ulteriori informazioni, consulta Casi d'uso di Ray
AWSSDK for pandas (awswrangler) — AWS SDK for pandas è un AWS prodotto che offre soluzioni pulite e testate per la lettura e la scrittura da servizi quando le trasformazioni gestiscono i dati con pandas. AWS DataFrames Per ulteriori informazioni sui formati e le origini supportati nell'SDK AWS per pandas, consulta la Documentazione di riferimento all'API
Per esempi di come leggere e scrivere dati con l'SDK AWS per pandas, consulta la sezione Quick Start
Modin: Modin è una libreria Python che implementa le comuni operazioni pandas in modo distribuibile. Per ulteriori informazioni su Modin, consulta la documentazione di Modin
Quando esegui Modin e l'SDK AWS per pandas in combinazione in un ambiente Ray, puoi eseguire attività ETL comuni con risultati performanti. Per ulteriori informazioni sull'utilizzo di Modin con l'SDK AWS per pandas, consulta la sezione At scale
Altri framework: per ulteriori informazioni sui framework supportati da Ray, consulta The Ray Ecosystem nella documentazione di Ray.
Connessione ai dati tramite Catalogo dati
La gestione dei dati tramite Catalogo dati in combinazione con i processi Ray è supportata dall'SDK AWS per pandas. Per ulteriori informazioni, consulta Catalogo Glue