Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Conexión a los datos de los trabajos de Ray
Los trabajos de Ray de AWS Glue pueden usar una amplia matriz de paquetes de Python que están diseñados para que usted pueda integrar datos rápidamente. Proporcionamos un conjunto mínimo de dependencias para no saturar su entorno. Para obtener más información acerca de lo que se incluye de forma predeterminada, consulte Módulos incluidos con los trabajos de Ray.
nota
Extracción, transformación y carga (ETL) de AWS Glue proporciona la abstracción de DynamicFrame para simplificar los flujos de trabajo de ETL en los que se resuelven las diferencias de esquema entre las filas en el conjunto de datos. AWS Glue ETL ofrece características adicionales: marcadores de trabajos y agrupación de archivos entrada. Por el momento, no proporcionamos las características correspondientes en los trabajos de Ray.
AWS Glue para Spark ofrece asistencia directa para conectarse a determinados formatos, orígenes y receptores de datos. En Ray, AWS SDK para pandas y bibliotecas externas actuales cubren sustancialmente esa necesidad. Deberá consultar esas bibliotecas para conocer las capacidades disponibles.
La integración de AWS Glue para Ray con Amazon VPC no está disponible actualmente. No se podrá acceder a los recursos de Amazon VPC sin una ruta pública. Para obtener más información acerca del uso de AWS Glue con Amazon VPC, consulte Configuración de puntos de conexión de la VPC de tipo interfaz (AWS PrivateLink) para AWS Glue (AWS PrivateLink).
Bibliotecas comunes para trabajar con datos en Ray
Ray Data: Ray Data proporciona métodos para gestionar formatos, orígenes y receptores de datos comunes. Para obtener más información sobre los formatos y orígenes compatibles con Ray Data, consulte Input/Output
Ray proporciona cierta orientación sobre los casos de uso en los que Ray Data podría ser la mejor solución para su trabajo. Para obtener más información, consulte Casos de uso de Ray
AWS SDK para pandas (awswrangler): AWS SDK es un producto de AWS que ofrece soluciones limpias y probadas para leer y escribir en los servicios de AWS cuando las transformaciones administran datos con DataFrames de pandas. Para obtener más información sobre los formatos y orígenes compatibles con AWS SDK para pandas, consulte API Reference
Para ver ejemplos de cómo leer y escribir datos con AWS SDK para pandas, consulte Quick Start
Modin: Modin es una biblioteca de Python que implementa operaciones comunes de pandas de forma distribuible. Para obtener más información sobre Modin, consulte la documentación de Mondin
Cuando ejecuta Modin y AWS SDK para pandas juntos en un entorno de Ray, puede realizar tareas ETL habituales con resultados de alto rendimiento. Para obtener más información sobre el uso de Modin con AWS SDK para pandas, consulte At scale
Otros esquemas: para obtener más información sobre los esquemas compatibles con Ray, consulte El ecosistema de Ray
Conexión a los datos mediante el Catálogo de datos
AWS SDK para pandas admite la administración de los datos a través del Catálogo de datos junto con los trabajos de Ray. Para más información, consulte Glue Catalog