Ventajas Conceptos clave Limitaciones Cuotas Regiones admitidas

Integraciones sin ETL de Amazon RDS

Una integración sin ETL de Amazon RDS con Amazon Redshift y Amazon SageMaker AI permite realizar análisis y machine learning (ML) casi en tiempo real mediante datos de RDS. Es una solución totalmente administrada que permite que los datos transaccionales estén disponibles en el destino de análisis después de escribirlos en una base de datos de RDS. La extracción, transformación y carga (ETL) es un proceso en el que se combinan datos de numerosos orígenes en un gran almacenamiento de datos central.

La integración sin ETL hace que los datos de base de datos de RDS estén disponibles en Amazon Redshift o un Amazon SageMaker AI Lakehouse prácticamente en tiempo real. Una vez que los datos están en el almacén de datos de destino o lago de datos, puede alimentar cargas de trabajo de análisis, ML e IA con las capacidades integradas, como el machine learning, las vistas materializadas, el uso compartido de datos, el acceso federado a varios almacenamientos de datos y lagos de datos, y las integraciones con Amazon SageMaker AI, Quick y otros Servicios de AWS.

Para crear una integración sin ETL, especifique una base de datos de RDS como origen y un almacén de datos o almacén de lago compatible como destino. La integración replica los datos de la base de datos de origen en el almacén de datos de destino o almacén de lago.

El siguiente diagrama ilustra esta funcionalidad para una integración sin ETL con Amazon Redshift:

En el siguiente diagrama se ilustra esta funcionalidad para la integración sin ETL con un Amazon SageMaker AI Lakehouse:

Una integración sin ETL con un Amazon SageMaker AI Lakehouse.

La integración supervisa el estado de la canalización de datos y se recupera de los problemas cuando es posible. Puede crear integraciones a partir de varias bases de datos de RDS en un único almacén de datos o almacén de lago de destino, lo que le permite obtener información en varias aplicaciones.

Temas

Ventajas

Las integraciones sin ETL de RDS tienen los siguientes beneficios:

Le ayudan a obtener información holística a partir de numerosos orígenes de datos.
Eliminan la necesidad de crear y mantener canalizaciones de datos complejas que realicen operaciones de extracción, transformación y carga (ETL). Las integraciones sin ETL eliminan los inconvenientes derivados de la creación y administración de canalizaciones, ya que las aprovisionan y administran por usted.
Reducen la carga operativa y los costos para que pueda centrarse en mejorar sus aplicaciones.
Le permite aprovechar las capacidades de análisis y ML de destino para obtener información a partir de datos transaccionales y de otro tipo, a fin de responder de manera eficaz a eventos críticos y urgentes.

Conceptos clave

Cuando empiece a utilizar las integraciones sin ETL, tenga en cuenta los siguientes conceptos:

Integración

Una canalización de datos totalmente administrada que replica automáticamente los datos y esquemas transaccionales de una base de datos de RDS a un almacén de datos o catálogo.

Base de datos de origen

La base de datos de RDS desde donde se replican los datos. Puede especificar una instancia de base de datos single-AZ o multi-AZ o un clúster de base de datos multi-AZ (solo para RDS para MySQL).

Target

El almacén de datos o almacén de lago en el que se replican los datos. Hay dos tipos de almacenamientos de datos: un almacenamiento de datos de clústeres aprovisionados y un almacenamiento de datos sin servidor. Un almacenamiento de datos de clústeres aprovisionados es una colección de recursos de computación denominados nodos que están organizados en un grupo llamado clúster. Un almacenamiento de datos sin servidor se compone de un grupo de trabajo que almacena los recursos de computación y un espacio de nombres que aloja los objetos y usuarios de la base de datos. Ambos almacenes de datos ejecutan un motor de análisis y contienen una o más bases de datos.

Un almacén de lago de destino consta de catálogos, bases de datos, tablas y vistas. Para obtener más información sobre la arquitectura del almacén de lago, consulte SageMaker Lakehouse components en la Guía del usuario de Amazon SageMaker AI Unified Studio.

Múltiples bases de datos de origen pueden escribir en el mismo destino.

Para obtener más información, consulte Arquitectura del sistema de almacenamiento de datos en la Guía del desarrollador de Amazon Redshift.

Limitaciones

Las siguientes limitaciones se aplican a las integración sin ETL de RDS.

Temas

Limitaciones generales
Limitaciones de RDS for MySQL
Limitaciones de RDS para PostgreSQL
Limitaciones de RDS para Oracle
Limitaciones de Amazon Redshift
Amazon SageMaker AILimitaciones de Lakehouse

Limitaciones generales

La base de datos de origen debe estar en la misma región que el destino.
No puede cambiar el nombre de una base de datos si ya tiene integraciones.
No se pueden crear varias integraciones entre las mismas bases de datos de origen y de destino.
No puede eliminar una base de datos que ya tenga integraciones. Primero debes eliminar todas las integraciones asociadas.
Si detiene la base de datos de origen, es posible que las últimas transacciones no se repliquen en el destino hasta que reanude la base de datos.
No puede eliminar una integración si la base de datos de origen está detenida.
Si la base de datos es el origen de una implementación azul/verde, los entornos azul y verde no pueden tener integraciones sin ETL existentes durante la transición. Primero debe eliminar la integración, realizar la transición y, a continuación, volver a crear la integración.
No puede crear una integración para una base de datos de origen en la que se esté creando otra integración de forma activa.
Cuando se crea una integración por primera vez, o cuando se vuelve a sincronizar una tabla, la transferencia de datos del origen al destino puede tardar entre 20 y 25 minutos o más, en función del tamaño de la base de datos de origen. Este retardo puede provocar un aumento del retardo en la réplica.
Algunos tipos de datos no son compatibles. Para obtener más información, consulte Diferencias de tipos de datos entre las bases de datos RDS y Amazon Redshift.
Las tablas del sistema, las tablas temporales y las vistas no se replican en almacenes de destino.
Al ejecutar comandos DDL (por ejemplo, ALTER TABLE) en una tabla de origen, se puede desencadenar una resincronización de la tabla, lo que hace que la tabla no esté disponible para realizar consultas mientras se resincroniza. Para obtener más información, consulte Una o más de mis tablas de Amazon Redshift requieren una resincronización.

Limitaciones de RDS for MySQL

La base de datos de origen debe ejecutar una versión compatible de RDS para MySQL. Para obtener una lista de las versiones compatibles, consulte Regiones y motores de base de datos admitidos para las integraciones sin ETL de Amazon RDS.
Las integraciones sin ETL no se admiten en la instancia principal y en una instancia de réplica de lectura de la misma región de AWS.
Las integraciones sin ETL se basan en el registro binario de MySQL (binlog) para capturar los cambios en los datos en curso. No utilice el filtrado de datos basado en binlog, ya que puede provocar incoherencias entre los datos de las bases de datos de origen y de destino.
Las integraciones sin ETL solo son compatibles con bases de datos configuradas para usar el motor de almacenamiento de InnoDB.
No se admiten referencias de clave externas con actualizaciones de tablas predefinidas. En concreto, las reglas ON DELETE y ON UPDATE no son compatibles con las acciones CASCADE, SET NULL y SET DEFAULT. Si se intenta crear o actualizar una tabla con este tipo de referencias a otra tabla, se producirá un error en la tabla.
No puede crear una integración para una base de datos de origen que utilice almacenamiento magnético.

Limitaciones de RDS para PostgreSQL

La base de datos de origen debe ser una instancia de RDS para PostgreSQL que ejecute las versiones 15.7+, 16.3+ o 17.1+. No se admiten versiones anteriores.
Las integraciones sin ETL de RDS para PostgreSQL no admiten clústeres de base de datos multi-AZ como bases de datos de origen.
No puede crear una integración sin ETL desde una instancia de réplica de lectura de RDS para PostgreSQL.
Las tablas no registradas y las vistas materializadas de PostgreSQL no se replican en Amazon Redshift.
Debido a las limitaciones de Amazon Redshift, no se admite la replicación de determinados tipos de datos de PostgreSQL, como los tipos de datos de geometría y los datos de más de 64 KB. Para obtener más información sobre las diferencias de tipos de datos entre RDS para PostgreSQL y Amazon Redshift, consulte RDS para PostgreSQL en la sección Diferencias de tipos de datos.
No puede realizar una actualización de la versión principal en la instancia de RDS para PostgreSQL de origen mientras tenga una integración sin ETL activa. Para actualizar la instancia de origen, primero debe eliminar todas las integraciones sin ETL existentes. Una vez completada la actualización de la versión principal, puede volver a crear las integraciones sin ETL.
Si realiza transacciones de particionamiento declarativo en la instancia de base de datos de origen, todas las tablas afectadas pasan a un estado erróneo y dejan de estar accesibles.
Si max_slot_wal_keep_size se establece en un valor finito en la instancia de RDS para PostgreSQL de origen, la ranura de replicación lógica utilizada por la integración se puede invalidar cuando la retención de WAL supere ese tamaño. Una ranura invalidada detiene la replicación y la integración no se puede recuperar sin volver a funcionar. Recomendamos dejar max_slot_wal_keep_size en el valor predeterminado de -1 de PostgreSQL (ilimitado) o configurarlo lo suficientemente grande como para acomodar el WAL generado durante el arranque de la integración y el retraso transitorio.

Limitaciones de RDS para Oracle

La base de datos de origen debe ser una instancia de RDS para Oracle que ejecute la versión 19c Enterprise Edition o Standard Edition 2, actualización de julio de 2019 o posterior. No se admiten versiones anteriores.
No puede crear una integración sin ETL a partir de una instancia de réplica de lectura de RDS para Oracle.
No puede cambiar el nombre de una base de datos de inquilino cuando hay una integración sin ETL en esa base de datos de inquilino.
Una base de datos de inquilino solo puede tener una integración sin ETL.
RDS para Oracle y Amazon Redshift tienen algunas diferencias en los tipos de datos. Para obtener más información, consulte RDS para Oracle en la sección Diferencias de tipo de datos.

Limitaciones de Amazon Redshift

Para obtener una lista de limitaciones de Amazon Redshift relacionadas con las integraciones sin ETL, consulte Consideraciones al utilizar las integraciones sin ETL con Amazon Redshift de la Guía de administración de Amazon Redshift.

Amazon SageMaker AILimitaciones de Lakehouse

La siguiente es una limitación para las integraciones sin ETL de Amazon SageMaker AI Lakehouse.

Los nombres de catálogo están limitados a 19 caracteres de longitud.

Cuotas

La cuenta tiene las siguientes cuotas relacionadas con las integraciones sin ETL de RDS. Cada una de las cuotas se aplica a una sola región, a no ser que se especifique otra cosa.

Nombre	Predeterminado	Descripción
Integraciones	100	El número total de integraciones dentro de una Cuenta de AWS.
Integraciones por destino	50	El número de integraciones que envían datos a un único almacén de datos o almacén de lago de destino.
Integraciones por instancia de origen	5	La cantidad de integraciones que envían datos desde una sola instancia de base de datos de origen.

Además, el almacén de destino establece algunos límites en la cantidad de tablas permitidas en cada instancia de base de datos o nodo de clúster. Para obtener más información sobre cuotas y límites de Amazon Redshift, consulte Cuotas y límites de Amazon Redshift en la Guía de administración de Amazon Redshift.

Regiones admitidas

Las integraciones sin ETL de RDS están disponibles en un subconjunto de Regiones de AWS. Para obtener una lista de las regiones admitidas, consulte Regiones y motores de base de datos admitidos para las integraciones sin ETL de Amazon RDS.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Directrices de configuración

Introducción a las integraciones sin ETL