Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Arbeiten mit Aurora ohne ETL Integrationen mit Amazon Redshift
Eine Aurora-Zero-Integration mit Amazon Redshift ermöglicht Analysen und maschinelles Lernen (ML) nahezu in Echtzeit mithilfe von Amazon Redshift für Petabyte an Transaktionsdaten von Aurora. Es handelt sich um eine vollständig verwaltete Lösung zur Bereitstellung von Transaktionsdaten in Amazon Redshift, nachdem sie in einen Aurora-DB-Cluster für geschrieben wurden. Extrahieren, Transformieren und Laden (ETL) ist der Prozess, bei dem Daten aus mehreren Quellen in einem großen, zentralen Data Warehouse kombiniert werden.
Eine ETL Null-Integration macht die Daten in Ihrem Aurora-DB-Cluster in Ihrer nahezu in Echtzeit in Amazon Redshift verfügbar. Sobald sich diese Daten in Amazon Redshift befinden, können Sie Ihre Analyse-, ML- und KI-Workloads mithilfe der integrierten Funktionen von Amazon Redshift unterstützen, z. B. maschinelles Lernen, materialisierte Ansichten, gemeinsame Nutzung von Daten, Verbundzugriff auf mehrere Datenspeicher und Data Lakes sowie Integrationen mit Amazon, Amazon und anderen SageMaker QuickSight AWS-Services.
Um eine ETL Null-Integration zu erreichen, geben Sie einen als Quelle und ein Amazon Redshift Data Warehouse als Ziel an. Bei der Integration werden Daten aus der Quelldatenbank in das Ziel-Data-Warehouse repliziert.
Das folgende Diagramm verdeutlicht diese Funktionalität:
Die Integration überwacht den Zustand der Datenpipeline und behebt nach Möglichkeit Probleme. Sie können Integrationen von Aurora-DB-Clustern aus mehreren in einen einzigen Amazon Redshift Redshift-Namespace erstellen, sodass Sie Erkenntnisse über mehrere Anwendungen hinweg gewinnen können.
Informationen zu den Preisen für ETL Zero-Integrations finden Sie unter und Amazon
Themen
- Vorteile
- Die wichtigsten Konzepte
- Einschränkungen
- Kontingente
- Unterstützte Regionen
- Erste Schritte mit Aurora — ETL Zero-Integrationen mit Amazon Redshift
- Erstellen von Aurora-Zero-Integrationen mit Amazon Redshift
- Datenfilterung für Aurora-Zero-Integrationen mit Amazon Redshift
- Hinzufügen von Daten zu einem Aurora-DB-Cluster mit und deren Abfrage in Amazon Redshift
- Anzeige und Überwachung von Aurora-Zero-Integrationen mit Amazon Redshift
- Änderung der Aurora-Zero-Integrationen mit Amazon Redshift
- Löschen von Aurora-Zero-Integrationen mit Amazon Redshift
- Fehlerbehebung Aurora-Zero-Integrationen mit Amazon Redshift
Vorteile
Aurora-Zero-Integrationen mit Amazon Redshift bieten die folgenden Vorteile:
-
Sie helfen Ihnen dabei, ganzheitliche Erkenntnisse aus mehreren Datenquellen zu gewinnen.
-
Eliminieren Sie die Notwendigkeit, komplexe Daten-Pipelines aufzubauen und zu verwalten, die Extraktions-, Transformations- und Load () ETL -Operationen durchführen. ETLNull-Integrationen beseitigen die Herausforderungen, die mit dem Aufbau und der Verwaltung von Pipelines einhergehen, indem sie für Sie bereitgestellt und verwaltet werden.
-
Sie reduzieren den Betriebsaufwand und die Kosten, sodass Sie sich ganz auf die Verbesserung Ihrer Anwendungen konzentrieren können.
-
Sie können die Analyse- und ML-Funktionen von Amazon Redshift nutzen, um Erkenntnisse aus Transaktions- und anderen Daten zu gewinnen und effektiv auf kritische, zeitkritische Ereignisse zu reagieren.
Die wichtigsten Konzepte
Wenn Sie mit ETL Null-Integrationen beginnen, sollten Sie die folgenden Konzepte berücksichtigen:
- Integration
-
Eine vollständig verwaltete Datenpipeline, die automatisch Transaktionsdaten und Schemas aus einem in ein Amazon Redshift Redshift-Data Warehouse repliziert.
-
Der , aus dem Daten repliziert werden. Für Aurora My SQL können Sie einen DB-Cluster angeben, der bereitgestellte DB-Instances verwendet, oder Aurora Serverless v2 DB-Instances als Quelle. Für die Aurora SQL Postgre-Vorschau können Sie nur einen Cluster angeben, der bereitgestellte DB-Instances verwendet.
- Ziel-Data-Warehouse
-
Das Data Warehouse von Amazon Redshift, in das die Daten repliziert werden. Es gibt zwei Arten von Data Warehouse: ein bereitgestelltes Cluster-Data-Warehouse und ein Serverless-Data-Warehouse. Ein bereitgestelltes Cluster-Data-Warehouse ist eine Sammlung von Datenverarbeitungsressourcen, den sogenannten Knoten, die zu einer Gruppe, einem sogenannten Cluster, zusammengefasst werden. Ein Serverless-Data-Warehouse besteht aus einer Arbeitsgruppe, die Datenverarbeitungsressourcen speichert, und einem Namespace, in dem die Datenbankobjekte und Benutzer gespeichert sind. In beiden Data Warehouses wird eine Amazon-Redshift-Engine ausgeführt und beide enthalten eine oder mehrere Datenbanken.
Mehrere DB-Cluster können auf dasselbe Ziel schreiben.
Weitere Informationen finden Sie unter Architektur des Data-Warehouse-Systems im Entwicklerhandbuch zu Amazon Redshift.
Einschränkungen
Die folgenden Einschränkungen gelten für Aurora-Zero-Integrationen mit Amazon Redshift.
Themen
Allgemeine Einschränkungen
-
Der muss sich in derselben Region wie das Amazon Redshift Redshift-Ziel-Data Warehouse befinden.
-
Sie können einen oder eine seiner Instances nicht umbenennen, wenn er über bestehende Integrationen verfügt.
-
Sie können nicht mehrere Integrationen zwischen derselben Quell- und Zieldatenbank erstellen.
-
Sie können keinen löschen, der über bestehende Integrationen verfügt. Sie müssen zuerst alle zugehörigen Integrationen löschen.
-
Wenn Sie den beenden, werden die letzten Transaktionen möglicherweise nicht in das Ziel-Data Warehouse repliziert, bis Sie den wieder aufnehmen.
-
Wenn Ihr die Quelle einer blau/grünen Bereitstellung ist, dürfen in den blauen und grünen Umgebungen während des Switchovers keine vorhandenen ETL Nullintegrationen vorhanden sein. Sie müssen zuerst die Integration löschen und umstellen. Anschließend erstellen Sie die Integration neu.
-
Ein DB-Cluster muss mindestens eine DB-Instance enthalten, um die Quelle einer Integration zu sein.
-
Wenn der DB-Quell-Cluster in einer globalen Aurora-Datenbank verwendet wird und ein Failover zu einem der sekundären Cluster erfolgt, wird die Integration inaktiv. Sie müssen die Integration löschen und erneut erstellen.
-
Sie können keine Integration für eine Quelldatenbank erstellen, für die aktiv eine andere Integration erstellt wird.
-
Wenn Sie zum ersten Mal eine Integration erstellen oder wenn eine Tabelle erneut synchronisiert wird, kann das Seeding von Daten von der Quelle zum Ziel je nach Größe der Quelldatenbank 20 bis 25 Minuten oder länger dauern. Diese Verzögerung kann zu einer erhöhten Replikatverzögerung führen.
-
Einige Datentypen werden nicht unterstützt. Weitere Informationen finden Sie unter Unterschiede zwischen den Datentypen zwischen Aurora - und Amazon Redshift Redshift-Datenbanken.
-
XA-Transaktionen werden nicht unterstützt.
-
Objektkennungen (einschließlich Datenbankname, Tabellenname, Spaltennamen und andere) dürfen nur alphanumerische Zeichen, Zahlen, $ und _ (Unterstrich) enthalten.
-
Systemtabellen, temporäre Tabellen und Ansichten werden nicht auf Amazon Redshift repliziert.
Aurora Meine SQL Einschränkungen
-
Auf Ihrem Quell-DB-Cluster muss eine unterstützte Version von Aurora My ausgeführt werdenSQL. Eine Liste der unterstützten Versionen finden Sie unter Unterstützte Regionen und Aurora-DB-Engines ohne ETL Integrationen mit Amazon Redshift.
-
ETLZero-Integrationen verlassen sich auf My SQL Binary Logging (Binlog), um laufende Datenänderungen zu erfassen. Verwenden Sie keine binlogbasierte Datenfilterung, da dies zu Dateninkonsistenzen zwischen der Quell- und der Zieldatenbank führen kann.
-
ETLZero-Integrationen werden nur für Datenbanken unterstützt, die für die Verwendung der InnoDB-Speicher-Engine konfiguriert sind.
-
Fremdschlüsselverweise mit vordefinierten Tabellenaktualisierungen werden nicht unterstützt. Insbesondere
ON DELETE
werdenON UPDATE
Regeln mitCASCADE
SET NULL
, undSET DEFAULT
Aktionen nicht unterstützt. Der Versuch, eine Tabelle mit solchen Verweisen in einer anderen Tabelle zu erstellen oder zu aktualisieren, führt zu einem Fehlschlag der Tabelle. -
ALTER TABLE
Partitionsoperationen führen dazu, dass Ihre Tabelle neu synchronisiert wird, um Daten von Aurora nach Amazon Redshift neu zu laden. Die Tabelle kann während der Resynchronisierung nicht abgefragt werden. Weitere Informationen finden Sie unter Eine oder mehrere meiner Amazon-Redshift-Tabellen erfordern eine erneute Synchronisation.
Einschränkungen der Aurora SQL Postgre-Vorschau
Wichtig
Vorschauversion beendet: Die Vorschauversion für Aurora Postgre SQL Zero ETL Integrations mit Amazon Redshift ist beendet. Wir freuen uns über Ihre Teilnahme und Ihr Feedback. Seien Sie gespannt auf weitere Updates zur Verfügbarkeit und zu den Verbesserungen der Funktion.
-
Auf Ihrem Quell-DB-Cluster muss Aurora Postgre ausgeführt werden SQL (kompatibel mit Postgre SQL 15.4 und Zero Support). ETL
-
Sie können ETL Zero-Integrationen für Aurora Postgre SQL nur in der Amazon RDS Database Preview-Umgebung
im Osten der USA (Ohio) (us-east-2) erstellen und verwalten AWS-Region. Sie können die Vorschauumgebung verwenden, um Beta-, Release Candidate- und frühe Produktionsversionen der SQL Postgre-Datenbank-Engine-Software zu testen. -
Sie können Integrationen für Aurora Postgre SQL nur mit dem AWS Management Console. Du kannst das nicht benutzen AWS Command Line Interface (AWS CLI), der Amazon RDS API oder einer der AWS SDKs.
-
Wenn Sie einen Quell-DB-Cluster erstellen, müssen für die von Ihnen gewählte Parametergruppe bereits die erforderlichen DB-Cluster-Parameterwerte konfiguriert sein. Sie können danach keine neue Parametergruppe erstellen und sie dann dem Cluster zuordnen. Eine Liste der erforderlichen Parameter finden Sie unterSchritt 1: Erstellen einer benutzerdefinierten DB-Cluster-Parametergruppe.
-
Sie können eine Integration nach der Erstellung nicht mehr ändern. Wenn Sie bestimmte Einstellungen ändern müssen, müssen Sie die Integration löschen und neu erstellen.
-
Derzeit führen Aurora SQL Postgre-DB-Cluster, die die Quelle einer Integration sind, keine automatische Erfassung logischer Replikationsdaten durch.
-
Alle Datenbanken, die im Aurora SQL Postgre-DB-Quellcluster erstellt wurden, müssen die UTF -8-Kodierung verwenden.
-
ETLZero-Integrationen mit Aurora Postgre unterstützen Folgendes SQL nicht:
-
Aurora Serverless v2 DB-Instances. Ihr Quell-DB-Cluster muss bereitgestellte DB-Instances verwenden.
-
Benutzerdefinierte Datentypen oder durch Erweiterungen erstellte Datentypen.
-
Subtransaktionen
auf dem Quell-DB-Cluster. -
Umbenennen von Schemas oder Datenbanken innerhalb eines Quell-DB-Clusters.
-
Wiederherstellung aus einem DB-Cluster-Snapshot oder Verwendung von Aurora-Cloning zur Erstellung eines Quell-DB-Clusters. Wenn Sie vorhandene Daten in einen Vorschau-Cluster integrieren möchten, müssen Sie die
pg_restore
Dienstprogrammepg_dump
oder verwenden. -
Erstellung von logischen Replikationsslots auf der Writer-Instance des Quell-DB-Clusters.
-
Große Feldwerte, für die The Oversized-Attribute Storage Technique () erforderlich ist. TOAST
-
ALTER TABLE
Partitionsoperationen. Diese Operationen können dazu führen, dass Ihre Tabelle erneut synchronisiert wird und schließlich in einenFailed
Status übergeht. Wenn eine Tabelle ausfällt, müssen Sie sie löschen und neu erstellen.
-
Einschränkungen für Amazon Redshift
Eine Liste der Einschränkungen von Amazon Redshift im Zusammenhang mit ETL Zero-Integrations finden Sie unter Überlegungen im Amazon Redshift Management Guide.
Kontingente
Ihr Konto hat die folgenden Kontingente für Aurora-Zero-Integrationen mit Amazon Redshift. Jedes Kontingent gilt pro Region, sofern nicht anders angegeben.
Name | Standard | Beschreibung |
---|---|---|
Integrationen | 100 | Die Gesamtzahl der Integrationen innerhalb eines AWS-Konto. |
Integrationen pro Ziel-Data-Warehouse | 50 | Die Anzahl der Integrationen, die Daten an ein einzelnes Ziel-Data-Warehouse von Amazon Redshift senden. |
Integrationen pro Quell-Cluster | 5 für Aurora MySQL, 1 für Aurora Postgre SQL | Die Anzahl der Integrationen, die Daten aus einem DB-Cluster einer einzelnen senden. |
Darüber hinaus legt Amazon Redshift bestimmte Einschränkungen für die Anzahl der zulässigen Tabellen in jeder Datenbank-Instance oder jedem Cluster-Knoten fest. Weitere Informationen finden Sie unter Kontingente und Limits in Amazon Redshift im Verwaltungshandbuch zu Amazon Redshift.
Unterstützte Regionen
Aurora-Zero-Integrationen mit Amazon Redshift sind in einer Teilmenge von verfügbar AWS-Regionen. Eine Liste der unterstützten Regionen finden Sie unter .