Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Integración compatible con Aurora PostgreSQL con AWS Glue
AWS Glue es un servicio de extracción, transformación y carga (ETL) totalmente gestionado para preparar y cargar datos para su análisis. Puede realizar la integración AWS Glue con la edición compatible con PostgreSQL de Amazon Aurora para cualquier flujo de trabajo de procesamiento y análisis de datos.
AWS Glue casos de uso y pasos de alto nivel
La integración de Aurora compatible con PostgreSQL AWS Glue admite los siguientes casos de uso:
-
Almacenamiento y análisis de datos: utilice la AWS Glue integración con Aurora compatible con PostgreSQL para crear soluciones de almacenamiento y análisis de datos. AWS Glue puede extraer datos de bases de datos compatibles con Aurora PostgreSQL y transformarlos según sus necesidades. A continuación, AWS Glue puede cargar los datos transformados en un almacén de datos como Amazon Redshift o Amazon Athena para realizar análisis e informes avanzados.
-
Creación de lagos de datos: AWS Glue utilícelos para extraer datos de Aurora compatibles con PostgreSQL y cargarlos en un lago de datos almacenado en Amazon S3. A continuación, puede utilizar este lago de datos para diversos fines, como el aprendizaje automático, la exploración de datos o la alimentación de otros sistemas analíticos.
-
Canalizaciones de ETL: utilice el servicio ETL AWS Glue sin servidor para crear canalizaciones de datos sólidas. Puede extraer datos de Aurora compatible con PostgreSQL y realizar transformaciones complejas mediante Apache Spark o. PySpark Puede cargar los datos procesados en un destino como Amazon S3 o Amazon Redshift, o puede volver a cargarlos en Aurora compatible con PostgreSQL.
-
Catalogación de datos y administración de metadatos: utilícelo AWS Glue Data Catalog para rastrear y catalogar automáticamente los metadatos de bases de datos y tablas compatibles con Aurora PostgreSQL. Servicios de AWS como Amazon Athena y Amazon Redshift, Spectrum puede utilizar este repositorio de metadatos centralizado para consultar y analizar datos.
-
Preparación de datos para el aprendizaje automático: se utiliza AWS Glue para preparar datos de Aurora compatibles con PostgreSQL para cargas de trabajo de aprendizaje automático (ML). Los datos procesados se pueden cargar en Amazon SageMaker AI u otros servicios de aprendizaje automático para entrenar e implementar modelos.
-
Migración y replicación de datos: si bien AWS Database Migration Service (AWS DMS) es el servicio principal para las migraciones de bases de datos, también puede utilizarlo AWS Glue. Migre o replique datos de Aurora compatibles con PostgreSQL a otros almacenes de datos, como Amazon S3, Amazon Redshift o incluso otros motores de bases de datos.
Su organización puede utilizar el poder de los servicios de análisis e integración de AWS datos con la escalabilidad, el rendimiento y la compatibilidad de Aurora, compatible con PostgreSQL. Con estos casos de uso, puede crear canales de datos sólidos, realizar transformaciones de datos complejas e integrarlos con otros Servicios de AWS para obtener análisis e informes avanzados.
Para integrar Aurora compatible con PostgreSQL AWS Glue, utilice los siguientes pasos de alto nivel:
-
Inicie sesión en Consola de administración de AWS, navegue hasta la AWS Glue consola y cree una. AWS Glue Data Catalog
El catálogo de datos es un repositorio central que almacena metadatos sobre sus fuentes de datos, incluidas las bases de datos y tablas compatibles con Aurora PostgreSQL.
-
Cree una conexión. AWS Glue
Ve a la página de conexiones y crea una AWS Glue conexión. Seleccione Aurora PostgreSQL compatible como tipo de conexión y proporcione el punto final del clúster compatible con Aurora PostgreSQL, el nombre de la base de datos y el nombre de usuario y la contraseña de la base de datos.
-
Rastree la fuente de datos compatible con Aurora PostgreSQL.
Vaya a la sección de rastreadores y cree un rastreador configurado para usar la conexión que creó. Especifique los nombres de bases de datos y tablas que desee rastrear e incluir en el catálogo de datos y ejecute el rastreador.
-
Cree y ejecute un trabajo de AWS Glue ETL.
Vaya a la sección Trabajos y cree un trabajo de ETL para acceder a los datos de la base de datos compatible con Aurora PostgreSQL y consultarlos mediante el Catálogo de datos. Elija el tipo de trabajo en función de sus requisitos. En el script de trabajo de ETL, realice las transformaciones o el procesamiento necesarios y especifique la ubicación de destino de los datos procesados. La ubicación de destino puede ser Amazon S3, Amazon Redshift u otra base de datos compatible con Aurora PostgreSQL.
Para obtener instrucciones detalladas, consulte la documentación.AWS Glue