Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Arbeiten mit Amazon RDS ohne ETL Integrationen mit Amazon Redshift
Es handelt sich um eine vollständig verwaltete Lösung zur Bereitstellung von Transaktionsdaten in Amazon Redshift, nachdem sie in einen für RDSDatenbanken geschrieben wurden. Extrahieren, Transformieren und Laden (ETL) ist der Prozess, bei dem Daten aus mehreren Quellen in einem großen, zentralen Data Warehouse kombiniert werden.
Eine ETL Null-Integration macht die Daten in Ihrem in Ihrer RDSDatenbank nahezu in Echtzeit in Amazon Redshift verfügbar. Sobald sich diese Daten in Amazon Redshift befinden, können Sie Ihre Analyse-, ML- und KI-Workloads mithilfe der integrierten Funktionen von Amazon Redshift unterstützen, z. B. maschinelles Lernen, materialisierte Ansichten, gemeinsame Nutzung von Daten, Verbundzugriff auf mehrere Datenspeicher und Data Lakes sowie Integrationen mit Amazon, Amazon und anderen SageMaker QuickSight AWS-Services.
Um eine ETL Null-Integration zu erreichen, geben Sie einen RDS als Quelle und ein Amazon Redshift Data Warehouse als Ziel an. Bei der Integration werden Daten aus der Quelldatenbank in das Ziel-Data-Warehouse repliziert.
Das folgende Diagramm verdeutlicht diese Funktionalität:
Die Integration überwacht den Zustand der Datenpipeline und behebt nach Möglichkeit Probleme. Sie können Integrationen von aus mehreren RDSDatenbanken in einen einzigen Amazon Redshift Redshift-Namespace erstellen, sodass Sie Erkenntnisse über mehrere Anwendungen hinweg gewinnen können.
Themen
- Vorteile
- Die wichtigsten Konzepte
- Einschränkungen
- Kontingente
- Unterstützte Regionen
- Erste Schritte mit Amazon RDS — ETL Zero-Integrationen mit Amazon Redshift
- Erstellen von Amazon RDS ETL mit Amazon Redshift
- Datenfilterung für Amazon RDS ETL mit Amazon Redshift
- Hinzufügen von Daten zu einem mit RDSQuelldatenbank und deren Abfrage in Amazon Redshift
- Anzeige und Überwachung von Amazon RDS ETL mit Amazon Redshift
- Änderung der Amazon RDS ETL mit Amazon Redshift
- Löschen von Amazon RDS ETL mit Amazon Redshift
- Fehlerbehebung bei Amazon RDS ETL mit Amazon Redshift
Vorteile
RDSETL mit Amazon Redshift bieten die folgenden Vorteile:
-
Sie helfen Ihnen dabei, ganzheitliche Erkenntnisse aus mehreren Datenquellen zu gewinnen.
-
Eliminieren Sie die Notwendigkeit, komplexe Daten-Pipelines aufzubauen und zu verwalten, die Extraktions-, Transformations- und Load () ETL -Operationen durchführen. ETLNull-Integrationen beseitigen die Herausforderungen, die mit dem Aufbau und der Verwaltung von Pipelines einhergehen, indem sie für Sie bereitgestellt und verwaltet werden.
-
Sie reduzieren den Betriebsaufwand und die Kosten, sodass Sie sich ganz auf die Verbesserung Ihrer Anwendungen konzentrieren können.
-
Sie können die Analyse- und ML-Funktionen von Amazon Redshift nutzen, um Erkenntnisse aus Transaktions- und anderen Daten zu gewinnen und effektiv auf kritische, zeitkritische Ereignisse zu reagieren.
Die wichtigsten Konzepte
Wenn Sie mit ETL Null-Integrationen beginnen, sollten Sie die folgenden Konzepte berücksichtigen:
- Integration
-
Eine vollständig verwaltete Datenpipeline, die automatisch Transaktionsdaten und Schemas aus einem RDS in ein Amazon Redshift Redshift-Data Warehouse repliziert.
-
Der RDS, aus dem Daten repliziert werden. Sie können eine Single-AZ- oder Multi-AZ-DB-Instance oder einen Multi-AZ-DB-Cluster angeben.
- Ziel-Data-Warehouse
-
Das Data Warehouse von Amazon Redshift, in das die Daten repliziert werden. Es gibt zwei Arten von Data Warehouse: ein bereitgestelltes Cluster-Data-Warehouse und ein Serverless-Data-Warehouse. Ein bereitgestelltes Cluster-Data-Warehouse ist eine Sammlung von Datenverarbeitungsressourcen, den sogenannten Knoten, die zu einer Gruppe, einem sogenannten Cluster, zusammengefasst werden. Ein Serverless-Data-Warehouse besteht aus einer Arbeitsgruppe, die Datenverarbeitungsressourcen speichert, und einem Namespace, in dem die Datenbankobjekte und Benutzer gespeichert sind. In beiden Data Warehouses wird eine Amazon-Redshift-Engine ausgeführt und beide enthalten eine oder mehrere Datenbanken.
Mehrere Quelldatenbanken können auf dasselbe Ziel schreiben.
Weitere Informationen finden Sie unter Architektur des Data-Warehouse-Systems im Entwicklerhandbuch zu Amazon Redshift.
Einschränkungen
Die folgenden Einschränkungen gelten für RDSETL mit Amazon Redshift.
Allgemeine Einschränkungen
-
Der muss sich in derselben Region wie das Amazon Redshift Redshift-Ziel-Data Warehouse befinden.
-
Sie können einen Datenbank-DB-Cluster nicht umbenennen, wenn er über bestehende Integrationen verfügt.
-
Sie können nicht mehrere Integrationen zwischen derselben Quell- und Zieldatenbank erstellen.
-
Sie können keinen löschen, der über bestehende Integrationen verfügt. Sie müssen zuerst alle zugehörigen Integrationen löschen.
-
Sie können eine Integration nicht löschen, wenn die Quelldatenbank gestoppt ist.
-
Wenn Ihr die Quelle einer blau/grünen Bereitstellung ist, dürfen in den blauen und grünen Umgebungen während des Switchovers keine vorhandenen ETL Nullintegrationen vorhanden sein. Sie müssen zuerst die Integration löschen und umstellen. Anschließend erstellen Sie die Integration neu.
-
Sie können keine Integration für eine Quelldatenbank erstellen, für die aktiv eine andere Integration erstellt wird.
-
Wenn Sie zum ersten Mal eine Integration erstellen oder wenn eine Tabelle erneut synchronisiert wird, kann das Seeding von Daten von der Quelle zum Ziel je nach Größe der Quelldatenbank 20 bis 25 Minuten oder länger dauern. Diese Verzögerung kann zu einer erhöhten Replikatverzögerung führen.
-
Einige Datentypen werden nicht unterstützt. Weitere Informationen finden Sie unter Unterschiede zwischen den Datentypen zwischen RDS - und Amazon Redshift Redshift-Datenbanken.
-
XA-Transaktionen werden nicht unterstützt.
-
Objektkennungen (einschließlich Datenbankname, Tabellenname, Spaltennamen und andere) dürfen nur alphanumerische Zeichen, Zahlen, $ und _ (Unterstrich) enthalten.
-
Systemtabellen, temporäre Tabellen und Ansichten werden nicht auf Amazon Redshift repliziert.
RDSfür My SQL Einschränkungen
-
In Ihrer Quelldatenbank muss eine unterstützte Version von RDS for My ausgeführt werdenSQL. Eine Liste der unterstützten Versionen finden Sie unter Unterstützte Regionen und DB-Engines für Amazon RDS ohne ETL Integrationen mit Amazon Redshift.
-
ETLZero-Integrationen verlassen sich auf My SQL Binary Logging (Binlog), um laufende Datenänderungen zu erfassen. Verwenden Sie keine binlogbasierte Datenfilterung, da dies zu Dateninkonsistenzen zwischen der Quell- und der Zieldatenbank führen kann.
-
ETLZero-Integrationen werden nur für Datenbanken unterstützt, die für die Verwendung der InnoDB-Speicher-Engine konfiguriert sind.
-
Fremdschlüsselverweise mit vordefinierten Tabellenaktualisierungen werden nicht unterstützt. Insbesondere
ON DELETE
werdenON UPDATE
Regeln mitCASCADE
SET NULL
, undSET DEFAULT
Aktionen nicht unterstützt. Der Versuch, eine Tabelle mit solchen Verweisen in einer anderen Tabelle zu erstellen oder zu aktualisieren, führt zu einem Fehlschlag der Tabelle. -
ALTER TABLE
Partitionsoperationen führen dazu, dass Ihre Tabelle neu synchronisiert wird, um Daten von RDS nach Amazon Redshift neu zu laden. Die Tabelle kann während der Resynchronisierung nicht abgefragt werden. Weitere Informationen finden Sie unter Eine oder mehrere meiner Amazon-Redshift-Tabellen erfordern eine erneute Synchronisation.
Einschränkungen für Amazon Redshift
Eine Liste der Einschränkungen von Amazon Redshift im Zusammenhang mit ETL Zero-Integrations finden Sie unter Überlegungen im Amazon Redshift Management Guide.
Kontingente
Ihr Konto hat die folgenden Kontingente für RDSETL mit Amazon Redshift. Jedes Kontingent gilt pro Region, sofern nicht anders angegeben.
Name | Standard | Beschreibung |
---|---|---|
Integrationen | 100 | Die Gesamtzahl der Integrationen innerhalb eines AWS-Konto. |
Integrationen pro Ziel-Data-Warehouse | 50 | Die Anzahl der Integrationen, die Daten an ein einzelnes Ziel-Data-Warehouse von Amazon Redshift senden. |
Integrationen pro Quell-Instance | 5 | Die Anzahl der Integrationen, die Daten aus einem DB-Cluster einer einzelnen senden. |
Darüber hinaus legt Amazon Redshift bestimmte Einschränkungen für die Anzahl der zulässigen Tabellen in jeder Datenbank-Instance oder jedem Cluster-Knoten fest. Weitere Informationen finden Sie unter Kontingente und Limits in Amazon Redshift im Verwaltungshandbuch zu Amazon Redshift.
Unterstützte Regionen
RDSETL mit Amazon Redshift sind in einer Teilmenge von verfügbar AWS-Regionen. Eine Liste der unterstützten Regionen finden Sie unter Unterstützte Regionen und DB-Engines für Amazon RDS ohne ETL Integrationen mit Amazon Redshift.