Utilisation d'Aurora : zéro ETL intégration avec Amazon Redshift - Amazon Aurora

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation d'Aurora : zéro ETL intégration avec Amazon Redshift

ETLL'intégration zéro d' Aurora avec Amazon Redshift permet des analyses en temps quasi réel et un apprentissage automatique (ML) à l'aide d'Amazon Redshift sur des pétaoctets de données transactionnelles provenant d'Aurora. Il s'agit d'une solution entièrement gérée permettant de rendre les données transactionnelles disponibles dans Amazon Redshift après leur écriture dans un cluster de Aurora DB. Extract, transform, and load (ETL) est le processus qui consiste à combiner des données provenant de sources multiples dans un vaste entrepôt de données central.

Une ETL intégration nulle rend les données de votre cluster de Aurora DB disponibles dans Amazon Redshift en temps quasi réel. Une fois ces données enregistrées dans Amazon Redshift, vous pouvez optimiser vos charges de travail d'analyse, d'apprentissage automatique et d'intelligence artificielle à l'aide des fonctionnalités intégrées d'Amazon Redshift, telles que l'apprentissage automatique, les vues matérialisées, le partage de données, l'accès fédéré à plusieurs magasins de données et lacs de données, et les intégrations avec Amazon, Amazon et d'autres SageMaker QuickSight Services AWS.

Pour créer une ETL intégration zéro, vous devez spécifier un cluster Aurora DB comme source et un entrepôt de données Amazon Redshift comme cible. L'intégration réplique les données de la base de données source vers l'entrepôt des données cible.

Le schéma suivant illustre cette fonctionnalité :

Une ETL intégration nulle

L’intégration surveille l’état du pipeline de données et effectue la récupération en cas de problèmes, lorsque cela est possible. Vous pouvez créer des intégrations à partir de plusieurs de données (clusters Aurora DB) dans un seul espace de noms Amazon Redshift, ce qui vous permet d'obtenir des informations sur plusieurs applications.

Pour plus d'informations sur la tarification des ETL intégrations nulles, consultez les rubriques Amazon Aurora et Tarification Amazon Redshift.

Avantages

ETLLes intégrations Aurora zero avec Amazon Redshift présentent les avantages suivants :

  • Elles vous aident à dériver des informations holistiques de plusieurs sources de données.

  • Éliminez le besoin de créer et de gérer des pipelines de données complexes qui exécutent des opérations d'extraction, de transformation et de chargement (ETL). ETLLes intégrations zéro éliminent les défis liés à la création et à la gestion des pipelines en les provisionnant et en les gérant pour vous.

  • Elles réduisent la charge opérationnelle et les coûts, et vous permettent de vous concentrer sur l'amélioration de vos applications.

  • Profitez des fonctionnalités d'analyse et de machine learning d'Amazon Redshift pour obtenir des informations à partir de données transactionnelles et autres, afin de répondre efficacement aux événements critiques et urgents.

Concepts clés

Lorsque vous débutez avec des ETL intégrations nulles, considérez les concepts suivants :

Integration

Un pipeline de données entièrement géré qui réplique automatiquement les données transactionnelles et les schémas d'un cluster de base de données vers un entrepôt de données Amazon Redshift.

Cluster de base de source

Le cluster Aurora DB à partir duquel les données sont répliquées. Pour Aurora MySQL, vous pouvez spécifier un cluster de base de données qui utilise des instances de base de données provisionnées ou Aurora Serverless v2 Instances de base de données en tant que source. Pour la SQL version préliminaire d'Aurora Postgre, vous pouvez uniquement spécifier un cluster qui utilise des instances de base de données provisionnées.

Entrepôt de données cible

L'entrepôt de données Amazon Redshift vers lequel les données sont répliquées. Il existe deux types d'entrepôts de données : l'entrepôt de données en cluster provisionné et l'entrepôt de données sans serveur. Un entrepôt de données en cluster provisionné est une collection de ressources informatiques appelées nœuds, qui sont organisées en un groupe appelé cluster. Un entrepôt de données sans serveur est composé d'un groupe de travail qui stocke les ressources de calcul et d'un espace de noms qui héberge les utilisateurs et les objets de base de données. Les deux entrepôts de données exécutent un moteur Amazon Redshift et contiennent une ou plusieurs bases de données.

Plusieurs sources Les clusters de bases de données peuvent écrire sur la même cible.

Pour plus d'informations, consultez Architecture système de l'entrepôt de données dans le Guide du développeur de base de données Amazon Redshift.

Limites

Les limites suivantes s'appliquent aux ETL intégrations d'Aurora Zero avec Amazon Redshift.

Limitations générales

  • Le cluster source doit se trouver dans la même région que l'entrepôt de données Amazon Redshift cible.

  • Vous ne pouvez pas renommer un cluster ou l'une de ses instances s'il possède des intégrations existantes.

  • Vous ne pouvez pas créer plusieurs intégrations entre les mêmes bases de données source et cible.

  • Vous ne pouvez pas supprimer un cluster de données doté d'intégrations existantes. Vous devez d’abord supprimer toutes les intégrations associées.

  • Si vous arrêtez le cluster de source, les dernières transactions risquent de ne pas être répliquées vers l'entrepôt de données cible tant que vous ne reprenez pas le cluster de .

  • Si votre cluster de données est à l'origine d'un déploiement bleu/vert, les environnements bleu et vert ne peuvent pas comporter d'ETLintégrations nulles existantes lors du passage au numérique. Vous devez d'abord supprimer l'intégration et basculer, puis la recréer.

  • Un cluster de base de données doit contenir au moins une instance de base de données pour être la source d'une intégration.

  • Si votre cluster source est le cluster de base de données principal d'une base de données globale Aurora et qu'il bascule sur l'un de ses clusters secondaires, l'intégration devient inactive. Vous devez supprimer et recréer l'intégration.

  • Vous ne pouvez pas créer d'intégration pour une base de données source dont une autre intégration est activement créée.

  • Lors de la création initiale d'une intégration ou lors de la resynchronisation d'une table, l'ensemencement des données de la source vers la cible peut prendre 20 à 25 minutes, voire plus, selon la taille de la base de données source. Ce délai peut entraîner une augmentation du délai de réplication.

  • Certains types de données ne sont pas pris en charge. Pour de plus amples informations, veuillez consulter Différences de type de données entre les bases de données Aurora et Amazon Redshift.

  • Les transactions XA ne sont pas prises en charge.

  • Les identifiants d'objet (y compris le nom de base de données, le nom de table, les noms de colonnes, etc.) ne peuvent contenir que des caractères alphanumériques, des chiffres, $ et _ (trait de soulignement).

  • Les tables système, les tables temporaires et les vues ne sont pas répliquées sur Amazon Redshift.

Aurora My SQL limitations

  • Votre cluster de base de données source doit exécuter une version prise en charge d'Aurora MySQL. Pour une liste de versions prises en charge, consultez Régions prises en charge et moteurs de base de données Aurora pour ETL des intégrations nulles avec Amazon Redshift.

  • ETLLes intégrations nulles s'appuient sur My SQL binary logging (binlog) pour capturer les modifications continues des données. N'utilisez pas le filtrage des données basé sur le binlog, car cela peut entraîner des incohérences entre les bases de données source et cible.

  • Les ETL intégrations zéro ne sont prises en charge que pour les bases de données configurées pour utiliser le moteur de stockage InnoDB.

  • Les références de clé étrangère avec des mises à jour de table prédéfinies ne sont pas prises en charge. Plus précisément, ON DELETE les ON UPDATE règles ne sont pas prises en charge par CASCADESET NULL, et SET DEFAULT les actions. Toute tentative de création ou de mise à jour d'une table contenant de telles références à une autre table entraînera l'échec de la table.

  • ALTER TABLEles opérations de partition entraînent la resynchronisation de votre table afin de recharger les données d'Aurora vers Amazon Redshift. La table ne pourra pas être interrogée pendant la resynchronisation. Pour de plus amples informations, veuillez consulter Une ou plusieurs de mes tables Amazon Redshift nécessitent une resynchronisation.

Limites de SQL prévisualisation d'Aurora Postgre

Important

Fin de la version préliminaire : la version préliminaire des ETL intégrations SQL zéro d'Aurora Postgre avec Amazon Redshift est terminée. Nous vous remercions de votre participation et de vos commentaires. Restez à l'affût pour d'autres mises à jour sur la disponibilité et les améliorations de cette fonctionnalité.

  • Votre cluster de base de données source doit exécuter Aurora Postgre SQL (compatible avec Postgre SQL 15.4 et Zero- SupportETL).

  • Vous pouvez créer et gérer des ETL intégrations nulles pour Aurora Postgre SQL uniquement dans l'environnement Amazon RDS Database Preview, dans l'est des États-Unis (Ohio) (us-east-2) Région AWS. Vous pouvez utiliser l'environnement de prévisualisation pour tester les versions bêta, candidate et les premières versions de production du logiciel du moteur de SQL base de données Postgre.

  • Vous pouvez créer et gérer des intégrations pour Aurora Postgre SQL uniquement à l'aide du AWS Management Console. Vous ne pouvez pas utiliser le AWS Command Line Interface (AWS CLI), l'Amazon RDS API ou l'un des AWS SDKs.

  • Lorsque vous créez un cluster de base de données source, le groupe de paramètres que vous choisissez doit déjà avoir les valeurs de paramètres de cluster de base de données requises configurées. Vous ne pouvez pas créer un nouveau groupe de paramètres par la suite, puis l'associer au cluster. Pour obtenir la liste des paramètres requis, consultezÉtape 1 : Créer un groupe de paramètres de cluster de base de données personnalisé.

  • Vous ne pouvez pas modifier une intégration après l'avoir créée. Si vous devez modifier certains paramètres, vous devez supprimer et recréer l'intégration.

  • Actuellement, les clusters de SQL base de données Aurora Postgre qui sont à l'origine d'une intégration ne collectent pas les données de réplication logiques.

  • Toutes les bases de données créées dans le cluster de SQL base de données Aurora Postgre source doivent utiliser le codage UTF -8.

  • ETLLes intégrations Zéro avec Aurora Postgre SQL ne prennent pas en charge les éléments suivants :

    • Aurora Serverless v2 Instances de base de données. Votre cluster de base de données source doit utiliser des instances de base de données provisionnées.

    • Types de données personnalisés ou types de données créés par des extensions.

    • Sous-transactions sur le cluster de base de données source.

    • Modification du nom de schémas ou de bases de données au sein d'un cluster de bases de données source.

    • Restauration à partir d'un instantané de cluster de base de données ou utilisation du clonage Aurora pour créer un cluster de base de données source. Si vous souhaitez intégrer des données existantes dans un cluster de prévisualisation, vous devez utiliser les pg_restore utilitaires pg_dump or.

    • Création de slots de réplication logiques sur l'instance d'écriture du cluster de base de données source.

    • Valeurs de champs de grande taille nécessitant la technique de stockage d'attributs surdimensionnés (). TOAST

    • ALTER TABLEopérations de partition. Ces opérations peuvent entraîner la resynchronisation de votre table et éventuellement son entrée dans un état. Failed Si une table échoue, vous devez la supprimer et la recréer.

Limitations propres à Amazon Redshift

Pour obtenir la liste des limites d'Amazon Redshift liées aux ETL intégrations nulles, consultez les considérations du guide de gestion Amazon Redshift.

Quotas

Votre compte possède les quotas suivants liés aux ETL intégrations zéro d'Aurora avec Amazon Redshift. Chaque quota s'applique par région, sauf indication contraire.

Nom Par défaut Description
Intégrations 100 Le nombre total d'intégrations au sein d'un Compte AWS.
Intégrations par entrepôt de données cible 50 Nombre d'intégrations envoyant des données à un entrepôt de données Amazon Redshift cible unique.
Intégrations par cluster source , 5 pour Aurora MySQL, 1 pour Aurora Postgrer SQL Nombre d'intégrations envoyant des données à partir d'un cluster de base de données d' de base de données source unique.

En outre, Amazon Redshift impose certaines limites au nombre de tables autorisées dans chaque instance de base de données ou nœud de cluster. Pour plus d’informations, consultez Quotas et limites dans Amazon Redshift dans le Guide de gestion Amazon Redshift.

Régions prises en charge

ETLLes intégrations Aurora zero avec Amazon Redshift sont disponibles dans un sous-ensemble de Régions AWS. Pour obtenir la liste des régions prises en charge, consultez .