Avantages Concepts clés Limitations Quotas Régions prises en charge

Amazon RDS Intégrations zéro ETL

Il s’agit d’une solution entièrement gérée qui permet de rendre les données transactionnelles disponibles dans votre destination d’analytique après leur écriture dans une base de données RDS. Le processus d’extraction, transformation et chargement (ETL) consiste à combiner des données provenant de plusieurs sources dans un grand entrepôt de données central.

Une intégration zéro ETL rend les données de votre base de données RDS disponibles dans Amazon Redshift ou un Amazon SageMaker AI Lakehouse en temps quasi réel. Une fois que ces données se trouvent dans l'entrepôt de données ou le lac de données cible, vous pouvez optimiser vos charges de travail d'analyse, de machine learning et d'IA à l'aide des fonctionnalités intégrées, telles que l'apprentissage automatique, les vues matérialisées, le partage de données, l'accès fédéré à plusieurs magasins de données et lacs de données, et les intégrations avec SageMaker Amazon AI, Quick, etc. Services AWS

Pour créer une intégration zéro ETL, vous devez spécifier une base de données RDS comme source et un entrepôt de données ou un lakehouse pris en charge comme cible. L’intégration réplique les données de la base de données source vers l’entrepôt de données ou le lakehouse cible.

Le schéma suivant illustre cette fonctionnalité d’intégration zéro ETL à Amazon Redshift :

Le schéma suivant illustre cette fonctionnalité pour l’intégration zéro ETL avec un Amazon SageMaker AI Lakehouse :

Une intégration zéro ETL avec un Amazon SageMaker AI lakehouse.

L’intégration surveille l’état du pipeline de données et effectue la récupération en cas de problèmes, lorsque cela est possible. Vous pouvez créer des intégrations à partir de plusieurs bases de données RDS dans un seul entrepôt de données ou lakehouse cible, ce qui vous permet de dériver des informations entre plusieurs applications.

Rubriques

Avantages

Les intégrations zéro ETL RDS présentent les avantages suivants :

Elles vous aident à dériver des informations holistiques de plusieurs sources de données.
Éliminez le besoin de créer et de gérer des pipelines de données complexes qui exécutent des opérations d'extraction, de transformation et de chargement (ETL). Zero-ETL les intégrations éliminent les défis liés à la création et à la gestion de pipelines en les provisionnant et en les gérant pour vous.
Elles réduisent la charge opérationnelle et les coûts, et vous permettent de vous concentrer sur l'amélioration de vos applications.
Elles vous permettent de tirer parti des fonctionnalités d’analytique et de machine learning de la destination cible pour dériver des informations à partir de données transactionnelles et autres, afin de répondre efficacement aux événements critiques et urgents.

Concepts clés

Lorsque vous commencez à utiliser des intégrations zéro ETL, tenez compte des concepts suivants :

Integration

Pipeline de données entièrement géré qui réplique automatiquement les données transactionnelles et les schémas d’une base de données RDS vers un entrepôt de données ou un catalogue.

Cluster de bases de données source

Base de données RDS à partir d’où les données sont répliquées. Vous pouvez spécifier une Single-AZ Multi-AZ instance de base de données ou un Multi-AZ cluster de base de données (pour RDS for MySQL uniquement).

Cible

L’entrepôt de données ou le lakehouse vers lequel les données sont répliquées. Il existe deux types d'entrepôts de données : l'entrepôt de données en cluster provisionné et l'entrepôt de données sans serveur. Un entrepôt de données en cluster provisionné est une collection de ressources informatiques appelées nœuds, qui sont organisées en un groupe appelé cluster. Un entrepôt de données sans serveur est composé d'un groupe de travail qui stocke les ressources de calcul et d'un espace de noms qui héberge les utilisateurs et les objets de base de données. Les deux entrepôts de données exécutent un moteur d’analytique et contiennent une ou plusieurs bases de données.

Un lakehouse cible se compose de catalogues, de bases de données, de tables et de vues. Pour plus d’informations sur l’architecture de lakehouse, consultez la section SageMaker Lakehouse components dans le Guide de l’utilisateur Amazon SageMaker AI Unified Studio.

Plusieurs bases de données sources peuvent écrire sur la même cible.

Pour plus d'informations, consultez Architecture système de l'entrepôt de données dans le Guide du développeur de base de données Amazon Redshift.

Limitations

Les limitations suivantes s’appliquent aux intégrations zéro ETL RDS.

Rubriques

Limitations générales
RDS for MySQL limites
Limitations relatives à RDS pour PostgreSQL
Limitations RDS for Oracle
Limitations propres à Amazon Redshift
Amazon SageMaker AI limites du lakehouse

Limitations générales

La base de données source doit se trouver dans la même région que la cible.
Vous ne pouvez pas renommer une base de données possédant des intégrations existantes.
Vous ne pouvez pas créer plusieurs intégrations entre les mêmes bases de données source et cible.
Vous ne pouvez pas supprimer une base de données qui possède des intégrations existantes. Vous devez d’abord supprimer toutes les intégrations associées.
Si vous arrêtez la base de données source, les dernières transactions risquent de ne pas être répliquées vers l’entrepôt de données cible tant que vous ne reprenez pas l’exécution de la base de données.
Vous ne pouvez pas supprimer une intégration si la base de données source est arrêtée.
Si votre de base de données est à l'origine d'un blue/green déploiement, les environnements bleu et vert ne peuvent pas comporter d'intégrations zéro ETL existantes lors du passage au numérique. Vous devez d'abord supprimer l'intégration et basculer, puis la recréer.
Vous ne pouvez pas créer d’intégration pour une base de données source dont une autre intégration est activement créée.
Lors de la création initiale d'une intégration ou lors de la resynchronisation d'une table, l'ensemencement des données de la source vers la cible peut prendre 20 à 25 minutes, voire plus, selon la taille de la base de données source. Ce délai peut entraîner une augmentation du retard de réplica.
Certains types de données ne sont pas pris en charge. Pour de plus amples informations, veuillez consulter Différences entre les types de données RDS et bases de données Amazon Redshift.
Les tables système, les tables temporaires et les vues ne sont pas répliquées vers les entrepôts cibles.
L’exécution de commandes DDL (par exempleALTER TABLE) sur une table source peut déclencher une resynchronisation de la table, rendant la table indisponible pour les requêtes pendant la resynchronisation. Pour de plus amples informations, veuillez consulter Une ou plusieurs de mes tables Amazon Redshift nécessitent une resynchronisation.

RDS for MySQL limites

Votre base de données source doit exécuter une version prise en charge de RDS for MySQL. Pour une liste de versions prises en charge, consultez Régions et moteurs de base de données pris en charge pour les intégrations zéro ETL Amazon RDS.
Zero-ETL les intégrations ne sont pas prises en charge à la fois sur l'instance principale et sur une instance de réplication en lecture dans la même AWS région.
Zero-ETL les intégrations s'appuient sur la journalisation binaire MySQL (binlog) pour capturer les modifications continues des données. N’utilisez par le filtrage de données basé sur binlog, car cela peut entraîner des incohérences de données entre les bases de données source et cible.
Zero-ETL les intégrations ne sont prises en charge que pour les bases de données configurées pour utiliser le moteur de stockage InnoDB.
Les références de clé étrangère avec des mises à jour de table prédéfinies ne sont pas prises en charge. Plus précisément, les règles ON DELETE et ON UPDATE ne sont pas prises en charge avec les actions CASCADE, SET NULL et SET DEFAULT. Toute tentative de création ou de mise à jour d'une table contenant de telles références à une autre table entraînera l'échec de la table.
Vous ne pouvez pas créer d'intégration pour une base de données source qui utilise le stockage magnétique.

Limitations relatives à RDS pour PostgreSQL

La base de données source doit être une instance RDS pour PostgreSQL exécutant les versions 15.7+, 16.3+ ou 17.1+. Les versions antérieures ne sont pas prises en charge.
Les intégrations RDS pour PostgreSQL Zero-ETL ne prennent pas Multi-AZ en charge les clusters de bases de données en tant que bases de données sources.
Vous ne pouvez pas créer une intégration zéro ETL à partir d’une instance de réplica en lecture de RDS pour PostgreSQL.
Les tables non enregistrées et les vues matérialisées de PostgreSQL ne sont pas répliquées sur Amazon Redshift.
La réplication de certains types de données PostgreSQL, tels que les types de données géométriques et les données supérieures à 64 Ko, n’est pas prise en charge en raison des limites d’Amazon Redshift. Pour plus d’informations sur les différences de type de données entre RDS pour PostgreSQL et Amazon Redshift, consultez RDS pour PostgreSQL dans la section Différences entre les types de données.
Vous ne pouvez pas effectuer de mise à niveau de version majeure sur l’instance RDS pour PostgreSQL source si celle-ci possède une intégration zéro ETL active. Pour mettre à niveau l’instance source, vous devez d’abord supprimer toutes les intégrations zéro ETL qui existent. Une fois la mise à niveau de version majeure effectuée, vous pouvez recréer les intégrations zéro ETL.
Si vous effectuez des transactions de partitionnement déclaratif sur l’instance de base de données source, toutes les tables concernées entrent dans un état d’échec et ne sont plus accessibles.
S'il max_slot_wal_keep_size est défini sur une valeur finie sur l'instance RDS source pour PostgreSQL, le slot de réplication logique utilisé par l'intégration peut être invalidé lorsque la rétention WAL dépasse cette taille. Un emplacement invalidé arrête la réplication et l'intégration ne peut pas être rétablie sans recréation. Nous vous recommandons de max_slot_wal_keep_size conserver la valeur par défaut de PostgreSQL (illimité) ou -1 de la définir suffisamment grande pour tenir compte du WAL généré lors du bootstrap d'intégration et du décalage transitoire.

Limitations RDS for Oracle

La base de données source doit être une instance RDS for Oracle exécutant la version 19c Enterprise Edition ou Standard Edition 2, mise à jour de version de juillet 2019 ou ultérieure. Les versions antérieures ne sont pas prises en charge.
Vous ne pouvez pas créer une intégration zéro ETL à partir d’une instance de réplica en lecture de RDS for Oracle.
Vous ne pouvez pas renommer une base de données locataire lorsqu’elle comporte une intégration zéro ETL.
Une base de données locataire ne peut avoir qu’une seule intégration zéro ETL.
RDS for Oracle et Amazon Redshift présentent certaines différences de type de données. Pour plus d’informations, consultez RDS for Oracle dans la section Type d’enregistrement.

Limitations propres à Amazon Redshift

Pour une liste des limitations Amazon Redshift liées aux intégrations zéro ETL, consultez la section Considérations relatives au moment d’utiliser les intégrations zéro ETL avec Amazon Redshift dans le Guide de gestion Amazon Redshift.

Amazon SageMaker AI limites du lakehouse

Voici une limite pour les intégrations Amazon SageMaker AI Lakehouse Zero-ETL.

Les noms de catalogue sont limités à 19 caractères.

Quotas

Votre compte possède les quotas suivants relatifs aux intégrations zéro ETL RDS. Chaque quota s'applique par région, sauf indication contraire.

Nom	Par défaut	Description
Intégrations	100	Nombre total d'intégrations au sein d'un Compte AWS.
Intégrations par cible	50	Nombre d’intégrations envoyant des données à un entrepôt de données ou un lakehouse cible unique.
Intégrations par instance source	5	Nombre d’intégrations envoyant des données à partir d’une instance de base de données source unique.

En outre, l’entrepôt cible impose certaines limites au nombre de tables autorisées dans chaque instance de base de données ou nœud de cluster. Pour plus d’informations sur les quotas et limites relatifs à Amazon Redshift, consultez la section Quotas et limites dans Amazon Redshift dans le Guide de gestion Amazon Redshift.

Régions prises en charge

Les intégrations RDS Zero-ETL sont disponibles dans un sous-ensemble de. Régions AWS Pour obtenir une liste des régions prises en charge, consultez Régions et moteurs de base de données pris en charge pour les intégrations zéro ETL Amazon RDS.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Directives de configuration

Bien démarrer avec les intégrations zéro ETL