Preparación de datos mediante sesiones interactivas AWS Glue - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de datos mediante sesiones interactivas AWS Glue

AWS Glue Las sesiones interactivas son un servicio sin servidor que puedes utilizar para recopilar, transformar, limpiar y preparar datos para almacenarlos en tus lagos de datos y canalizaciones de datos. AWS Glue Las sesiones interactivas proporcionan un entorno de ejecución de Apache Spark, bajo demanda y sin servidores, que puede inicializar en cuestión de segundos en una unidad de procesamiento de datos dedicada (DPU) sin tener que aprovisionar ni administrar una compleja infraestructura de clústeres de cómputo. Tras la inicialización, puede navegar por el catálogo de AWS Glue datos, ejecutar consultas de gran tamaño, acceder a los datos regidos por ellos AWS Lake Formation y analizarlos y prepararlos de forma interactiva con Spark, directamente en sus libretas Studio o Studio Classic. A continuación, puedes usar los datos preparados para entrenar, ajustar e implementar modelos con las herramientas de aprendizaje automático diseñadas específicamente en SageMaker Studio o Studio Classic. Deberías considerar las sesiones AWS Glue interactivas para tus cargas de trabajo de preparación de datos si deseas un servicio Spark sin servidor con un control moderado de la configurabilidad y la flexibilidad.

Puedes iniciar una sesión AWS Glue interactiva iniciando un JupyterLab bloc de notas en Studio o Studio Classic. Al iniciar el bloc de notas, elija el integrado Glue PySpark and Ray o Glue Spark el kernel. Esto inicia automáticamente una sesión de Spark interactiva y sin servidor. No necesitas aprovisionar ni gestionar ningún clúster o infraestructura de cómputo. Tras la inicialización, puede explorar los datos e interactuar con ellos desde sus blocs de notas de Studio o Studio Classic.

Antes de iniciar la sesión AWS Glue interactiva en Studio o Studio Classic, debe establecer las funciones y políticas adecuadas. Además, es posible que tengas que proporcionar acceso a recursos adicionales, como un bucket de almacenamiento de Amazon S3. Para obtener más información sobre IAM las políticas obligatorias, consultePermisos para sesiones AWS Glue interactivas en Studio o Studio Classic.

Studio y Studio Classic ofrecen una configuración predeterminada para tu sesión AWS Glue interactiva, pero puedes usar el catálogo completo AWS Glue de comandos mágicos de Jupyter para personalizar aún más tu entorno. Para obtener información sobre las magias de Jupyter predeterminadas y adicionales que puede utilizar en su AWS Glue sesión interactiva, consulte. Configura tu sesión AWS Glue interactiva en Studio o Studio Classic

  • Los usuarios de Studio Classic que inicien una sesión AWS Glue interactiva pueden seleccionar entre las siguientes imágenes y núcleos:

    • Imágenes:, SparkAnalytics 1.0 SparkAnalytics 2.0

    • Núcleo: Glue Python [PySpark and Ray] y Glue Spark

  • Para los usuarios de Studio, utilice la imagen SageMaker de distribución predeterminada y seleccione un núcleo Glue Python [PySpark and Ray] o un Glue Spark núcleo.