View a markdown version of this page

Integración compatible con Aurora PostgreSQL con AWS Glue - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Integración compatible con Aurora PostgreSQL con AWS Glue

AWS Glue es un servicio de extracción, transformación y carga (ETL) totalmente gestionado para preparar y cargar datos para su análisis. Puede realizar la integración AWS Glue con la edición compatible con PostgreSQL de Amazon Aurora para cualquier flujo de trabajo de procesamiento y análisis de datos.

AWS Glue casos de uso y pasos de alto nivel

La integración de Aurora compatible con PostgreSQL AWS Glue admite los siguientes casos de uso:

  • Almacenamiento y análisis de datos: utilice la AWS Glue integración con Aurora compatible con PostgreSQL para crear soluciones de almacenamiento y análisis de datos. AWS Glue puede extraer datos de bases de datos compatibles con Aurora PostgreSQL y transformarlos según sus necesidades. A continuación, AWS Glue puede cargar los datos transformados en un almacén de datos como Amazon Redshift o Amazon Athena para realizar análisis e informes avanzados.

  • Creación de lagos de datos: AWS Glue utilícelos para extraer datos de Aurora compatibles con PostgreSQL y cargarlos en un lago de datos almacenado en Amazon S3. A continuación, puede utilizar este lago de datos para diversos fines, como el aprendizaje automático, la exploración de datos o la alimentación de otros sistemas analíticos.

  • Canalizaciones de ETL: utilice el servicio ETL AWS Glue sin servidor para crear canalizaciones de datos sólidas. Puede extraer datos de Aurora compatible con PostgreSQL y realizar transformaciones complejas mediante Apache Spark o. PySpark Puede cargar los datos procesados en un destino como Amazon S3 o Amazon Redshift, o puede volver a cargarlos en Aurora compatible con PostgreSQL.

  • Catalogación de datos y administración de metadatos: utilícelo AWS Glue Data Catalog para rastrear y catalogar automáticamente los metadatos de bases de datos y tablas compatibles con Aurora PostgreSQL. Servicios de AWS como Amazon Athena y Amazon Redshift, Spectrum puede utilizar este repositorio de metadatos centralizado para consultar y analizar datos.

  • Preparación de datos para el aprendizaje automático: se utiliza AWS Glue para preparar datos de Aurora compatibles con PostgreSQL para cargas de trabajo de aprendizaje automático (ML). Los datos procesados se pueden cargar en Amazon SageMaker AI u otros servicios de aprendizaje automático para entrenar e implementar modelos.

  • Migración y replicación de datos: si bien AWS Database Migration Service (AWS DMS) es el servicio principal para las migraciones de bases de datos, también puede utilizarlo AWS Glue. Migre o replique datos de Aurora compatibles con PostgreSQL a otros almacenes de datos, como Amazon S3, Amazon Redshift o incluso otros motores de bases de datos.

Su organización puede utilizar el poder de los servicios de análisis e integración de AWS datos con la escalabilidad, el rendimiento y la compatibilidad de Aurora, compatible con PostgreSQL. Con estos casos de uso, puede crear canales de datos sólidos, realizar transformaciones de datos complejas e integrarlos con otros Servicios de AWS para obtener análisis e informes avanzados.

Para integrar Aurora compatible con PostgreSQL AWS Glue, utilice los siguientes pasos de alto nivel:

  1. Inicie sesión en Consola de administración de AWS, navegue hasta la AWS Glue consola y cree una. AWS Glue Data Catalog

    El catálogo de datos es un repositorio central que almacena metadatos sobre sus fuentes de datos, incluidas las bases de datos y tablas compatibles con Aurora PostgreSQL.

  2. Cree una conexión. AWS Glue

    Ve a la página de conexiones y crea una AWS Glue conexión. Seleccione Aurora PostgreSQL compatible como tipo de conexión y proporcione el punto final del clúster compatible con Aurora PostgreSQL, el nombre de la base de datos y el nombre de usuario y la contraseña de la base de datos.

  3. Rastree la fuente de datos compatible con Aurora PostgreSQL.

    Vaya a la sección de rastreadores y cree un rastreador configurado para usar la conexión que creó. Especifique los nombres de bases de datos y tablas que desee rastrear e incluir en el catálogo de datos y ejecute el rastreador.

  4. Cree y ejecute un trabajo de AWS Glue ETL.

    Vaya a la sección Trabajos y cree un trabajo de ETL para acceder a los datos de la base de datos compatible con Aurora PostgreSQL y consultarlos mediante el Catálogo de datos. Elija el tipo de trabajo en función de sus requisitos. En el script de trabajo de ETL, realice las transformaciones o el procesamiento necesarios y especifique la ubicación de destino de los datos procesados. La ubicación de destino puede ser Amazon S3, Amazon Redshift u otra base de datos compatible con Aurora PostgreSQL.

Para obtener instrucciones detalladas, consulte la documentación.AWS Glue