Trabajar con tareas de Ray en AWS Glue
En esta sección se proporciona información sobre el uso de AWS Glue para trabajos de Ray. Para obtener más información sobre cómo escribir scripts de AWS Glue para Ray, consulte la sección Programación de scripts de Ray.
Temas
Introducción a AWS Glue para Ray
Para trabajar con AWS Glue para Ray, se utilizan los mismos trabajos de AWS Glue y las mismas sesiones interactivas que se usan con AWS Glue para Spark. Los trabajos de AWS Glue están diseñados para ejecutar el mismo script de forma periódica, mientras que las sesiones interactivas están diseñadas para permitir ejecutar fragmentos de código de forma secuencial con los mismos recursos aprovisionados.
AWS Glue ETL y Ray son diferentes en el fondo, por lo que en el script tendrá acceso a diferentes herramientas, características y configuraciones. Como nuevo marco de cálculo administrado por AWS Glue, Ray tiene una arquitectura diferente y usa un vocabulario diferente para describir lo que hace. Para más información, consulte Architecture Whitepapers
nota
AWS Glue para Ray está disponible en el Este de EE. UU. (Norte de Virginia), Este de EE. UU. (Ohio), Oeste de EE. UU. (Oregón), Asia Pacífico (Tokio) y Europa (Irlanda).
Trabajos de Ray en la consola de AWS Glue Studio
En la página Trabajos de la consola de AWS Glue Studio, puede seleccionar una nueva opción al crear un trabajo en el editor de scripts AWS Glue Studio Ray. Seleccione esta opción para crear un trabajo de Ray en la consola. Para más información sobre los trabajos y cómo se utilizan, consulte Creación de trabajos de ETL visuales con AWS Glue Studio.
Trabajos de Ray en la AWS CLI y SDK
Los trabajos de Ray en la AWS CLI utilizan las mismas acciones y parámetros del SDK que los demás trabajos. AWS Glue para Ray introduce nuevos valores para determinados parámetros. Para más información sobre la API de trabajos, consulte Jobs.
Entornos de tiempo de ejecución de Ray compatibles
En los trabajos de Spark, GlueVersion
determina las versiones de Apache Spark y Python disponibles en un trabajo de AWS Glue para Spark. La versión de Python indica la versión admitida para trabajos de tipo Spark. No es así como se configuran los entornos de tiempo de ejecución de Ray.
Para los trabajos de Ray, debe configurar GlueVersion
en 4.0
o superior. Sin embargo, las versiones de Ray, Python y bibliotecas adicionales que están disponibles en el trabajo de Ray vienen determinadas por el campo Runtime
de la definición del trabajo.
El entorno de tiempo de ejecución de Ray2.4
estará disponible durante un mínimo de 6 meses después del lanzamiento. A medida que Ray evolucione rápidamente, podrá incorporar actualizaciones y mejoras de Ray en futuras versiones del entorno de tiempo de ejecución.
Valores válidos: Ray2.4
Valor de tiempo de ejecución | Versiones de Ray y Python |
---|---|
Ray2.4 (para AWS Glue 4.0+) |
Ray 2.4.0 Python 3.9 |
Información adicional
-
Para ver las notas de la versión que acompañan a las versiones de AWS Glue para Ray, consulte Versiones de AWS Glue.
-
Para ver las bibliotecas de Python que se proporcionan en un entorno de tiempo de ejecución, consulte Módulos incluidos con los trabajos de Ray.
Contabilidad de los trabajadores en los trabajos de Ray
AWS Glue ejecuta los trabajos de Ray en los nuevos tipos de trabajadores de EC2 basados en Graviton, que solo están disponibles para los trabajos de Ray. Para aprovisionar adecuadamente a estos trabajadores para las cargas de trabajo para las que Ray está diseñado, ofrecemos una proporción diferente entre los recursos de cómputo y los recursos de memoria que la mayoría de los trabajadores. Para tener en cuenta estos recursos, utilizamos la unidad de procesamiento de datos optimizada para la memoria (M-DPU) en lugar de la unidad de procesamiento de datos (DPU) estándar.
-
Una M-DPU corresponde a 4 vCPU y 32 GB de memoria.
-
Una DPU corresponde a 4 vCPU y 16 GB de memoria. Las DPU se utilizan para contabilizar los recursos en AWS Glue con los trabajos de Spark y los trabajadores correspondientes.
Actualmente, los trabajos de Ray tienen acceso a un tipo de trabajador, Z.2X
. El trabajador Z.2X
se asigna a 2 M-DPU (8 vCPU, 64 GB de memoria) y tiene 128 GB de espacio en disco. Una máquina Z.2X
proporciona 8 trabajadores de Ray (uno por vCPU).
La cantidad de M-DPU que puede utilizar simultáneamente en una cuenta está sujeta a una cuota de servicio. Para más información acerca de los límites de su cuenta de AWS Glue, consulte Puntos de conexión y cuotas de AWS Glue.
La cantidad de nodos de trabajo que están disponibles para un trabajo de Ray con --number-of-workers
(NumberOfWorkers)
se especifica en la definición de trabajo. Para obtener más información acerca de los valores Ray en la API de trabajos, consulte Jobs.
También puede especificar un número mínimo de trabajadores que un trabajo de Ray debe asignar con el parámetro de trabajo de --min-workers
. Para obtener más información acerca de la configuración de parámetros de trabajos, consulte Referencia.