AWS Glue casos de uso y pasos de alto nivel

Integración compatible con Aurora PostgreSQL con AWS Glue

AWS Glue es un servicio de extracción, transformación y carga (ETL) totalmente gestionado para preparar y cargar datos para su análisis. Puede realizar la integración AWS Glue con la edición compatible con PostgreSQL de Amazon Aurora para cualquier flujo de trabajo de procesamiento y análisis de datos.

AWS Glue casos de uso y pasos de alto nivel

La integración de Aurora compatible con PostgreSQL AWS Glue admite los siguientes casos de uso:

Almacenamiento y análisis de datos: utilice la AWS Glue integración con Aurora compatible con PostgreSQL para crear soluciones de almacenamiento y análisis de datos. AWS Glue puede extraer datos de bases de datos compatibles con Aurora PostgreSQL y transformarlos según sus necesidades. A continuación, AWS Glue puede cargar los datos transformados en un almacén de datos como Amazon Redshift o Amazon Athena para realizar análisis e informes avanzados.
Creación de lagos de datos: AWS Glue utilícelos para extraer datos de Aurora compatibles con PostgreSQL y cargarlos en un lago de datos almacenado en Amazon S3. A continuación, puede utilizar este lago de datos para diversos fines, como el aprendizaje automático, la exploración de datos o la alimentación de otros sistemas analíticos.
Canalizaciones de ETL: utilice el servicio ETL AWS Glue sin servidor para crear canalizaciones de datos sólidas. Puede extraer datos de Aurora compatible con PostgreSQL y realizar transformaciones complejas mediante Apache Spark o. PySpark Puede cargar los datos procesados en un destino como Amazon S3 o Amazon Redshift, o puede volver a cargarlos en Aurora compatible con PostgreSQL.
Catalogación de datos y administración de metadatos: utilícelo AWS Glue Data Catalog para rastrear y catalogar automáticamente los metadatos de bases de datos y tablas compatibles con Aurora PostgreSQL. Servicios de AWS como Amazon Athena y Amazon Redshift, Spectrum puede utilizar este repositorio de metadatos centralizado para consultar y analizar datos.
Preparación de datos para el aprendizaje automático: se utiliza AWS Glue para preparar datos de Aurora compatibles con PostgreSQL para cargas de trabajo de aprendizaje automático (ML). Los datos procesados se pueden cargar en Amazon SageMaker AI u otros servicios de aprendizaje automático para entrenar e implementar modelos.
Migración y replicación de datos: si bien AWS Database Migration Service (AWS DMS) es el servicio principal para las migraciones de bases de datos, también puede utilizarlo AWS Glue. Migre o replique datos de Aurora compatibles con PostgreSQL a otros almacenes de datos, como Amazon S3, Amazon Redshift o incluso otros motores de bases de datos.

Su organización puede utilizar el poder de los servicios de análisis e integración de AWS datos con la escalabilidad, el rendimiento y la compatibilidad de Aurora, compatible con PostgreSQL. Con estos casos de uso, puede crear canales de datos sólidos, realizar transformaciones de datos complejas e integrarlos con otros Servicios de AWS para obtener análisis e informes avanzados.

Para integrar Aurora compatible con PostgreSQL AWS Glue, utilice los siguientes pasos de alto nivel:

Inicie sesión en Consola de administración de AWS, navegue hasta la AWS Glue consola y cree una. AWS Glue Data Catalog

El catálogo de datos es un repositorio central que almacena metadatos sobre sus fuentes de datos, incluidas las bases de datos y tablas compatibles con Aurora PostgreSQL.
Cree una conexión. AWS Glue

Ve a la página de conexiones y crea una AWS Glue conexión. Seleccione Aurora PostgreSQL compatible como tipo de conexión y proporcione el punto final del clúster compatible con Aurora PostgreSQL, el nombre de la base de datos y el nombre de usuario y la contraseña de la base de datos.
Rastree la fuente de datos compatible con Aurora PostgreSQL.

Vaya a la sección de rastreadores y cree un rastreador configurado para usar la conexión que creó. Especifique los nombres de bases de datos y tablas que desee rastrear e incluir en el catálogo de datos y ejecute el rastreador.
Cree y ejecute un trabajo de AWS Glue ETL.

Vaya a la sección Trabajos y cree un trabajo de ETL para acceder a los datos de la base de datos compatible con Aurora PostgreSQL y consultarlos mediante el Catálogo de datos. Elija el tipo de trabajo en función de sus requisitos. En el script de trabajo de ETL, realice las transformaciones o el procesamiento necesarios y especifique la ubicación de destino de los datos procesados. La ubicación de destino puede ser Amazon S3, Amazon Redshift u otra base de datos compatible con Aurora PostgreSQL.

Para obtener instrucciones detalladas, consulte la documentación.AWS Glue

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

AWS DMS integración

Integración de Amazon Redshift