Conexión a los datos de los trabajos de Ray - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conexión a los datos de los trabajos de Ray

Los trabajos de Ray de AWS Glue pueden usar una amplia matriz de paquetes de Python que están diseñados para que usted pueda integrar datos rápidamente. Proporcionamos un conjunto mínimo de dependencias para no saturar su entorno. Para obtener más información acerca de lo que se incluye de forma predeterminada, consulte Módulos incluidos con los trabajos de Ray.

nota

Extracción, transformación y carga (ETL) de AWS Glue proporciona la abstracción de DynamicFrame para simplificar los flujos de trabajo de ETL en los que se resuelven las diferencias de esquema entre las filas en el conjunto de datos. AWS Glue ETL ofrece características adicionales: marcadores de trabajos y agrupación de archivos entrada. Por el momento, no proporcionamos las características correspondientes en los trabajos de Ray.

AWS Glue para Spark ofrece asistencia directa para conectarse a determinados formatos, orígenes y receptores de datos. En Ray, AWS SDK para pandas y bibliotecas externas actuales cubren sustancialmente esa necesidad. Deberá consultar esas bibliotecas para conocer las capacidades disponibles.

La integración de AWS Glue para Ray con Amazon VPC no está disponible actualmente. No se podrá acceder a los recursos de Amazon VPC sin una ruta pública. Para obtener más información acerca del uso de AWS Glue con Amazon VPC, consulte Configuración de puntos de conexión de la VPC de tipo interfaz (AWS PrivateLink) para AWS Glue (AWS PrivateLink).

Bibliotecas comunes para trabajar con datos en Ray

Ray Data: Ray Data proporciona métodos para gestionar formatos, orígenes y receptores de datos comunes. Para obtener más información sobre los formatos y orígenes compatibles con Ray Data, consulte Input/Output en la documentación de Ray Data. Ray Data es una biblioteca obstinada, en lugar de una biblioteca de uso general, para gestionar conjuntos de datos.

Ray proporciona cierta orientación sobre los casos de uso en los que Ray Data podría ser la mejor solución para su trabajo. Para obtener más información, consulte Casos de uso de Ray en la documentación de Ray.

AWS SDK para pandas (awswrangler): AWS SDK es un producto de AWS que ofrece soluciones limpias y probadas para leer y escribir en los servicios de AWS cuando las transformaciones administran datos con DataFrames de pandas. Para obtener más información sobre los formatos y orígenes compatibles con AWS SDK para pandas, consulte API Reference en la documentación de AWS SDK para pandas.

Para ver ejemplos de cómo leer y escribir datos con AWS SDK para pandas, consulte Quick Start en la documentación de AWS SDK para pandas. AWS SDK para pandas no proporciona transformaciones para sus datos. Solo proporciona asistencia para leer y escribir desde las orígenes.

Modin: Modin es una biblioteca de Python que implementa operaciones comunes de pandas de forma distribuible. Para obtener más información sobre Modin, consulte la documentación de Mondin. Modin en sí no admite la lectura y la escritura a partir de orígenes. Proporciona implementaciones distribuidas de transformaciones comunes. AWS SDK para pandas admite Modin.

Cuando ejecuta Modin y AWS SDK para pandas juntos en un entorno de Ray, puede realizar tareas ETL habituales con resultados de alto rendimiento. Para obtener más información sobre el uso de Modin con AWS SDK para pandas, consulte At scale en la documentación de AWS SDK para pandas.

Otros esquemas: para obtener más información sobre los esquemas compatibles con Ray, consulte El ecosistema de Ray en la documentación de Ray. No ofrecemos soporte para otros marcos en el caso AWS Glue para Ray.

Conexión a los datos mediante el Catálogo de datos

AWS SDK para pandas admite la administración de los datos a través del Catálogo de datos junto con los trabajos de Ray. Para más información, consulte Glue Catalog (Catálogo de Glue) en el sitio web de AWS SDK para pandas.