Integrazioni zero-ETL di Amazon RDS con Amazon Redshift - Amazon Relational Database Service

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Integrazioni zero-ETL di Amazon RDS con Amazon Redshift

L'integrazione Zero-ETL di Amazon RDS con Amazon Redshift consente di eseguire operazioni di analisi e machine learning (ML) quasi in tempo reale utilizzando Amazon Redshift su petabyte di dati transazionali di RDS. L'estrazione, la trasformazione e il caricamento (ETL) è il processo di combinazione di dati provenienti da più fonti in un ampio data warehouse centrale.

Un'integrazione zero-ETL rende i dati del cluster in tempo reale. Una volta che i dati sono in Amazon Redshift, puoi potenziare i tuoi carichi di lavoro di analisi, ML e intelligenza artificiale utilizzando le funzionalità integrate di Amazon Redshift, come apprendimento automatico, viste materializzate, condivisione dei dati, accesso federato a più data store e data lake e integrazioni con Amazon AI, Amazon SageMaker e altro. QuickSight Servizi AWS

Per creare un'integrazione zero-ETL, specifichi un database RDS, un cluster come origine e un data warehouse Amazon Redshift come destinazione. L'integrazione replica i dati dal database di origine nel data warehouse di destinazione.

Il diagramma seguente illustra questa funzionalità.

Integrazione Zero-ETL

L'integrazione monitora lo stato della pipeline dei dati ed esegue il ripristino in caso di problemi quando possibile. Puoi creare integrazioni da più database RDS (cluster Aurora ) in un unico spazio dei nomi Amazon Redshift, che ti consente di ricavare informazioni su più applicazioni.

Vantaggi

Le integrazioni Zero-ETL di RDS con Amazon Redshift offrono i seguenti vantaggi:

  • Ti consentono di ottenere approfondimenti di tipo olistico da più origini dati.

  • Eliminano la necessità di creare e gestire pipeline dei dati complesse che eseguono operazioni di estrazione, trasformazione e caricamento (ETL). Le integrazioni Zero-ETL forniscono e gestiscono le pipeline per te, eliminando le sfide legate alla loro creazione e gestione.

  • Ti consentono di ridurre il carico e i costi operativi e di concentrarti sul miglioramento delle applicazioni.

  • Consenti di sfruttare le funzionalità di analisi e ML di Amazon Redshift per ricavare informazioni dettagliate da dati transazionali e di altro tipo, per rispondere efficacemente a eventi critici e urgenti.

Concetti chiave

Per iniziare a utilizzare le integrazioni Zero-ETL, tieni presente i seguenti concetti:

Integrazione

Una pipeline di dati completamente gestita che replica automaticamente i dati e gli schemi transazionali da un un data warehouse Amazon Redshift.

Il cluster del database RDS da cui vengono replicati i dati. È possibile specificare un'istanza DB Single-AZ o Multi-AZ oppure un cluster DB Multi-AZ.

Data warehouse di destinazione

Si tratta del data warehouse di Amazon Redshift in cui viene eseguita la replica dei dati. Esistono due tipi di data warehouse: un data warehouse con cluster con provisioning e un data warehouse serverless. Un data warehouse con cluster con provisioning è costituito da un insieme di risorse di calcolo denominate nodi, strutturate in un gruppo denominato cluster. Un data warehouse serverless è composto da un gruppo di lavoro che archivia le risorse di calcolo e da un spazio dei nomi che ospita gli oggetti e gli utenti del database. Entrambi i data warehouse utilizzano un motore Amazon Redshift e contengono uno o più database.

I di più database di origine possono scrivere sulla stessa destinazione.

Per ulteriori informazioni sui nodi principali e sui nodi di calcolo, consulta Architettura del sistema di data warehouse nella Guida per sviluppatori di database di Amazon Redshift.

Limitazioni

Le seguenti limitazioni si applicano alle integrazioni Zero-ETL di RDS con Amazon Redshift.

Limitazioni generali

  • Il del database di origine deve trovarsi nella stessa regione del data warehouse Amazon Redshift di destinazione.

  • Non puoi rinominare un se dispone di integrazioni esistenti.

  • Non è possibile creare più integrazioni tra gli stessi database di origine e di destinazione.

  • Non è possibile eliminare un di database con integrazioni esistenti. Devi prima eliminare tutte le integrazioni associate.

  • Non è possibile eliminare un'integrazione se il database di origine è interrotto.

  • Se il di database è all'origine di una distribuzione blu/verde, gli ambienti blu e verde non possono avere integrazioni zero-ETL esistenti durante lo switchover. Occorre eliminare l'integrazione, eseguire lo switchover e poi ricrearla.

  • Non è possibile creare un'integrazione per un database di origine in cui viene creata attivamente un'altra integrazione.

  • Durante la fase iniziale della creazione di un'integrazione o quando una tabella viene risincronizzata, il seeding dei dati dall'origine alla destinazione può richiedere 20-25 minuti o più, a seconda delle dimensioni del database di origine. Questo ritardo può portare a un aumento del ritardo di replica.

  • Alcuni tipi di dati non sono supportati. Per ulteriori informazioni, consulta Differenze tra i tipi di dati tra i database RDS e Amazon Redshift.

  • Le tabelle di sistema, le tabelle temporanee e le viste non vengono replicate su Amazon Redshift.

Limitazioni di RDS per MySQL

  • Il database di origine deve eseguire una versione supportata di RDS for MySQL. Per un elenco delle versioni supportate, consulta Regioni e motori DB supportati per le ETL integrazioni RDS zero di Amazon con Amazon Redshift.

  • Le integrazioni Zero-ETL si basano sui log binari MySQL (binlog) per acquisire le modifiche continue dei dati. Non utilizzare il filtraggio dei dati basato su binlog, poiché può causare incongruenze di dati tra il database di origine e quello di destinazione.

  • Le integrazioni Zero-ETL sono supportate solo per i database configurati per l'utilizzo del motore di storage InnoDB.

  • I riferimenti a chiavi esterne con aggiornamenti di tabella predefiniti non sono supportati. In particolare, ON DELETE le ON UPDATE regole non sono supportate con CASCADESET NULL, e SET DEFAULT le azioni. Se si tenta di creare o aggiornare una tabella con tali riferimenti a un'altra tabella, la tabella entrerà in uno stato di errore.

  • ALTER TABLEle operazioni di partizione provocano la risincronizzazione della tabella per ricaricare i dati da RDS ad Amazon Redshift. La tabella non sarà disponibile per l'interrogazione durante la risincronizzazione. Per ulteriori informazioni, consulta Una o più tabelle Amazon Redshift richiedono una risincronizzazione.

Limitazioni di Amazon Redshift

Per un elenco delle limitazioni di Amazon Redshift relative alle integrazioni Zero-ETL, consulta Considerazioni sull'utilizzo delle integrazioni Zero-ETL con Amazon Redshift nella Amazon Redshift Management Guide.

Quote

Sul tuo account sono disponibili le seguenti quote relative alle integrazioni Zero-ETL di RDS con Amazon Redshift. Salvo dove diversamente specificato, ogni quota fa riferimento a una Regione specifica.

Nome Predefinito Descrizione
Integrazioni 100 Numero totale di integrazioni all'interno di un  Account AWS.
Integrazioni per data warehouse di destinazione 50 Numero di integrazioni che inviano dati a un unico data warehouse Amazon Redshift di destinazione.
Integrazioni per istanza di origine 5

Inoltre, Amazon Redshift pone determinati limiti al numero di tabelle consentite in ogni istanza database o nodo del cluster. Per ulteriori informazioni, consulta Quote e limiti in Amazon Redshift nella Guida alla gestione di Amazon Redshift.

Regioni supportate

Le integrazioni Zero-ETL di RDS con Amazon Redshift sono disponibili in un sottoinsieme di. Regioni AWS Per un elenco delle regioni supportate, consultare Regioni e motori DB supportati per le ETL integrazioni RDS zero di Amazon con Amazon Redshift.