Vantaggi Concetti chiave Limitazioni Quote Regioni supportate

Amazon RDS Integrazioni Zero-ETL

È una soluzione completamente gestita per rendere disponibili i dati transazionali nella destinazione di analisi dopo la scrittura su un database RDS. Estrazione, trasformazione e caricamento (ETL) è il processo di combinazione di dati provenienti da più origini in un grande data warehouse centrale.

Un’integrazione Zero-ETL rende disponibili i dati del database RDS in Amazon Redshift o in un lakehouse Amazon SageMaker AI quasi in tempo reale. Una volta che i dati sono nel data warehouse o data lake di destinazione, puoi potenziare i tuoi carichi di lavoro di analisi, ML e intelligenza artificiale utilizzando le funzionalità integrate, come machine learning, viste materializzate, condivisione dei dati, accesso federato a più data store e data lake e integrazioni con SageMaker Amazon AI, Quick e altro. Servizi AWS

Per creare un’integrazione Zero-ETL, è necessario specificare un database RDS come origine e un lakehouse o un data warehouse supportato come destinazione. L’integrazione replica i dati dal database di origine nel lakehouse o data warehouse di destinazione.

Il diagramma seguente illustra questa funzionalità per l’integrazione Zero-ETL con Amazon Redshift:

Il diagramma seguente illustra questa funzionalità per l’integrazione Zero-ETL con un Amazon SageMaker AI Lakehouse:

Un'integrazione zero-ETL con un lago. Amazon SageMaker AI

L’integrazione monitora lo stato della pipeline dei dati ed esegue il ripristino in caso di problemi quando possibile. Puoi creare integrazioni da più database RDS in un unico lakehouse o data warehouse di destinazione così da ottenere informazioni dettagliate da diverse applicazioni.

Argomenti

Vantaggi

Le integrazioni Zero-ETL di RDS offrono i seguenti vantaggi:

Ti consentono di ottenere approfondimenti di tipo olistico da più origini dati.
Elimina la necessità di creare e mantenere pipeline di dati complesse che eseguono operazioni di estrazione, trasformazione e caricamento (ETL). Zero-ETL le integrazioni eliminano le sfide legate alla creazione e alla gestione delle pipeline fornendole e gestendole per te.
Ti consentono di ridurre il carico e i costi operativi e di concentrarti sul miglioramento delle applicazioni.
Puoi utilizzare le funzionalità di analisi e machine learning della destinazione per ricavare informazioni dettagliate da dati transazionali e di altro tipo e reagire in modo efficace in caso di eventi critici e urgenti.

Concetti chiave

Per iniziare a utilizzare le integrazioni Zero-ETL, tieni presente i seguenti concetti:

Integrazione

Una pipeline dei dati completamente gestita che replica automaticamente i dati transazionali e gli schemi da un database RDS a un data warehouse o un catalogo.

Database di origine

Il database RDS da cui viene eseguita la replica dei dati. È possibile specificare un'istanza Single-AZ o Multi-AZ DB o un cluster Multi-AZ DB (solo per RDS per MySQL).

Target

Si tratta del lakehouse o data warehouse in cui viene eseguita la replica dei dati. Esistono due tipi di data warehouse: un data warehouse con cluster con provisioning e un data warehouse serverless. Un data warehouse con cluster con provisioning è costituito da un insieme di risorse di calcolo denominate nodi, strutturate in un gruppo denominato cluster. Un data warehouse serverless è composto da un gruppo di lavoro che archivia le risorse di calcolo e da un spazio dei nomi che ospita gli oggetti e gli utenti del database. Entrambi i data warehouse utilizzano un motore di analisi e contengono uno o più database.

Un lakehouse di destinazione è costituito da cataloghi, database, tabelle e viste. Per ulteriori informazioni sull’architettura lakehouse, consulta SageMaker Lakehouse components nella Guida per l’utente di Amazon SageMaker AI Unified Studio.

Più database di destinazione possono scrivere nella stessa destinazione.

Per ulteriori informazioni sui nodi principali e sui nodi di calcolo, consulta Architettura del sistema di data warehouse nella Guida per sviluppatori di database di Amazon Redshift.

Limitazioni

Le seguenti limitazioni si applicano alle integrazioni Zero-ETL di RDS.

Argomenti

Limitazioni generali
RDS per MySQL limitazioni
Limitazioni di RDS per PostgreSQL
Limitazioni di RDS per Oracle
Limitazioni di Amazon Redshift
Amazon SageMaker AI limitazioni di Lakehouse

Limitazioni generali

Il database di origine deve trovarsi nella stessa Regione della destinazione.
Non è possibile rinominare un database se include integrazioni esistenti.
Non è possibile creare più integrazioni tra gli stessi database di origine e destinazione.
Non è possibile eliminare un database con integrazioni esistenti. Devi prima eliminare tutte le integrazioni associate.
Se il database di origine viene arrestato, è possibile che le ultime transazioni non vengano replicate nella destinazione finché non si riprende il database.
Non è possibile eliminare un’integrazione se il database di origine viene arrestato.
Se il di database è l'origine di una blue/green distribuzione, gli ambienti blu e verde non possono avere integrazioni zero-ETL esistenti durante lo switchover. Occorre eliminare l’integrazione, eseguire lo switchover e poi ricrearla.
Non è possibile creare un’integrazione per un database di origine in cui un’altra integrazione è attivamente in fase di creazione.
Durante la fase iniziale della creazione di un’integrazione o quando una tabella viene risincronizzata, il seeding dei dati dall’origine alla destinazione può richiedere 20-25 minuti o più, a seconda delle dimensioni del database di origine. Ciò può causare un aumento del ritardo di replica.
Alcuni tipi di dati non sono supportati. Per ulteriori informazioni, consulta Differenze tra i tipi di dati RDS e database Amazon Redshift.
Le tabelle di sistema, le tabelle temporanee e le viste non vengono replicate nei warehouse di destinazione.
L’esecuzione di comandi DDL (ad esempio ALTER TABLE) su una tabella di origine può attivare una risincronizzazione della tabella. Durante tale operazione non sarà possibile utilizzare la tabella per le query. Per ulteriori informazioni, consulta Una o più tabelle Amazon Redshift richiedono una risincronizzazione.

RDS per MySQL limitazioni

Il database di origine deve eseguire una versione supportata di RDS per MySQL. Per un elenco delle versioni supportate, consulta Regioni e motori di database supportati per le integrazioni Zero-ETL di Amazon RDS.
Zero-ETL le integrazioni non sono supportate sia sull'istanza principale che su un'istanza di replica di lettura nella stessa regione. AWS
Zero-ETL le integrazioni si basano sulla registrazione binaria di MySQL (binlog) per acquisire le continue modifiche ai dati. Il filtraggio dei dati basato su binlog è sconsigliato, poiché può causare incoerenze nei dati tra il database di origine e quello di destinazione.
Zero-ETL le integrazioni sono supportate solo per i database configurati per utilizzare il motore di archiviazione InnoDB.
I riferimenti a chiavi esterne con aggiornamenti di tabella predefiniti non sono supportati. In particolare, le regole ON DELETE e ON UPDATE non sono supportate nelle operazioni CASCADE, SET NULL e SET DEFAULT. Se si tenta di creare o aggiornare una tabella con tali riferimenti a un’altra tabella, la tabella entrerà in uno stato di errore.
Non è possibile creare un'integrazione per un database di origine che utilizza l'archiviazione magnetica.

Limitazioni di RDS per PostgreSQL

Il database di origine deve essere un’istanza RDS per PostgreSQL che esegue la versione 15.7+, 16.3+ o 17.1+. Le versioni precedenti non sono supportate.
Le integrazioni Zero-ETL di RDS per PostgreSQL non supportano i cluster DB come database di origine. Multi-AZ
Non è possibile creare un’integrazione Zero-ETL da un’istanza di replica di lettura di RDS per PostgreSQL.
Le viste materializzate e le tabelle non registrate di PostgreSQL non vengono replicate su Amazon Redshift.
La replica di determinati tipi di dati PostgreSQL, ad esempio i tipi di dati di geometria e i dati con dimensioni superiori a 64 KB, non è supportata a causa delle limitazioni di Amazon Redshift. Per ulteriori informazioni sulle differenze dei tipi di dati tra RDS per PostgreSQL e Amazon Redshift, consulta l’articolo RDS per PostgreSQL nella sezione Differenze tra i tipi di dati.
Non è possibile eseguire un aggiornamento a una versione principale sull’istanza RDS per PostgreSQL di origine se è presente un’integrazione Zero-ETL attiva. Per aggiornare l’istanza di origine, è necessario eliminare prima tutte le integrazioni Zero-ETL. Al termine dell’aggiornamento alla versione principale, è possibile ricreare le integrazioni Zero-ETL.
Se esegui transazioni di partizionamento dichiarativo sull’istanza del database di origine, tutte le tabelle interessate entrano in uno stato di errore e non sono più accessibili.
Se max_slot_wal_keep_size è impostato su un valore finito sull'istanza RDS di origine per PostgreSQL, lo slot di replica logica utilizzato dall'integrazione può essere invalidato quando la conservazione WAL supera tale dimensione. Uno slot invalidato interrompe la replica e l'integrazione non può essere ripristinata senza ricreazione. Ti consigliamo di lasciare il valore predefinito di PostgreSQL (unlimited) o -1 di impostarlo sufficientemente grande da contenere il WAL generato max_slot_wal_keep_size durante il bootstrap di integrazione e il ritardo transitorio.

Limitazioni di RDS per Oracle

Il database di origine deve essere un’istanza di RDS per Oracle che esegue la versione 19c Enterprise Edition o Standard Edition 2, aggiornamento della versione di luglio 2019 o successiva. Le versioni precedenti non sono supportate.
Non è possibile creare un’integrazione Zero-ETL da un’istanza di replica di lettura di RDS per Oracle.
Non è possibile rinominare un database del tenant se su tale database esiste un’integrazione zero-ETL.
Un database del tenant può avere una sola integrazione Zero-ETL.
RDS per Oracle e Amazon Redshift presentano alcune differenze tra i tipi di dati. Per ulteriori informazioni, consulta RDS per Oracle nella sezione Differenze tra i tipi di dati.

Limitazioni di Amazon Redshift

Per un elenco delle limitazioni di Amazon Redshift relative alle integrazioni Zero-ETL, consulta la pagina delle Considerazioni sull’utilizzo delle integrazioni Zero-ETL con Amazon Redshift nella Guida alla gestione di Amazon Redshift.

Amazon SageMaker AI limitazioni di Lakehouse

Di seguito è riportata una limitazione per le integrazioni Amazon SageMaker AI Lakehouse Zero-ETL.

I nomi dei cataloghi hanno un limite di lunghezza di 19 caratteri.

Quote

Sul tuo account sono disponibili le seguenti quote relative alle integrazioni Zero-ETL di RDS. Salvo dove diversamente specificato, ogni quota fa riferimento a una Regione specifica.

Nome	Predefinito	Description
Integrazioni	100	Numero totale di integrazioni all’interno di un Account AWS.
Integrazioni per destinazione	50	Numero di integrazioni che inviano dati a un unico lakehouse o data warehouse di destinazione.
Integrazioni per istanza di origine	5	Numero di integrazioni che inviano dati da un’unica istanza database di origine.

Inoltre, il warehouse di destinazione pone determinati limiti al numero di tabelle consentite in ogni istanza database o nodo del cluster. Per informazioni su quote e limiti di Amazon Redshift, consulta Quote e limiti in Amazon Redshift nella Guida alla gestione di Amazon Redshift.

Regioni supportate

Le integrazioni RDS Zero-ETL sono disponibili in un sottoinsieme di. Regioni AWS Per un elenco delle regioni supportate, consulta Regioni e motori di database supportati per le integrazioni Zero-ETL di Amazon RDS.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Linee guida di configurazione

Guida introduttiva alle integrazioni Zero-ETL