Überlegungen zur Verwendung von Apache-Iceberg-Tabellen

Amazon Redshift unterstützt die Verwendung von Python-UDFs nach dem 30. Juni 2026 nicht mehr. Wir werden damit beginnen, es schrittweise durchzusetzen. Weitere Informationen zu den Einzelheiten zum Ende der Lebensdauer und zu den Migrationsoptionen von Python finden Sie in dem Blogbeitrag, der am 30. Juni 2025 veröffentlicht wurde.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Apache-Iceberg-Tabellen mit Amazon Redshift

Anmerkung

Um die beste Leistung bei der Verwendung von Apache Iceberg-Tabellen mit Amazon Redshift zu erzielen, müssen Sie Spaltenstatistiken für die Tabellen generieren, die AWS Glue verwenden. Weitere Informationen finden Sie unter Generieren von Spaltenstatistiken für Iceberg-Tabellen im AWS Glue -Entwicklerhandbuch.

In diesem Thema wird beschrieben, wie Sie Tabellen im Apache Iceberg-Format mit Amazon Redshift verwenden. Apache Iceberg ist ein leistungsstarkes Open-Source-Tabellenformat für Data Lakes. Weitere Informationen finden Sie unter Apache Iceberg in der Apache-Iceberg-Dokumentation.

Sie können AWS Glue Data Catalog mit Amazon Redshift katalogisierte Apache Iceberg-Tabellen abfragen. RG-Instanztypen und Redshift Serverless verwenden ihre eigene Rechenleistung, um Data-Lake-Abfragen zu verarbeiten, während RA3-Instance-Typen Redshift Spectrum verwenden. Weitere Informationen finden Sie unter Abfragen Ihres Data Lake.

Amazon Redshift bietet Transaktionskonsistenz für Abfragen von Apache-Iceberg-Tabellen. Sie können die Daten in Ihren Tabellen mithilfe von ACID-konformen Services (Atomizität, Konsistenz, Isolation, Dauerhaftigkeit) wie Amazon Athena und Amazon EMR bearbeiten, während Sie Abfragen mit Amazon Redshift ausführen. Amazon Redshift kann die in den Apache-Iceberg-Metadaten gespeicherten Tabellenstatistiken verwenden, um Abfragepläne zu optimieren und Dateiscans während der Abfrageverarbeitung zu reduzieren. Mit Amazon Redshift SQL können Sie Redshift-Tabellen mit Data-Lake-Tabellen verbinden.

So führen Sie die ersten Schritte für Iceberg-Tabellen mit Amazon Redshift aus:

Erstellen Sie mit einem kompatiblen Service wie Amazon Athena oder Amazon EMR eine Apache Iceberg-Tabelle in einer AWS Glue Data Catalog Datenbank. Informationen zum Erstellen einer Iceberg-Tabelle mit Athena finden Sie unter Verwenden von Apache-Iceberg-Tabellen im Amazon-Athena-Benutzerhandbuch.
Erstellen Sie einen Amazon-Redshift-Cluster oder eine Redshift-Serverless-Arbeitsgruppe mit einer zugehörigen IAM-Rolle, die den Zugriff auf Ihren Data Lake ermöglicht. Informationen zum Erstellen von Clustern oder Arbeitsgruppen finden Sie unter Erste Schritte mit von Amazon Redshift bereitgestellten Data Warehouses und Erste Schritte mit von Redshift Serverless bereitgestellten Data Warehouses im Handbuch Erste Schritte mit Amazon Redshift.
Stellen Sie mithilfe des Abfrage-Editors v2 oder eines SQL-Clients eines Drittanbieters eine Verbindung mit Ihrem Cluster oder Ihrer Arbeitsgruppe her. Informationen zum Herstellen von Verbindungen mit Query Editor V2 finden Sie unter Herstellen einer Verbindung zu einem von Amazon Redshift bereitgestellten Data Warehouse mit SQL-Clienttools im Managementleitfaden zu Amazon Redshift.
Erstellen Sie in Ihrer Amazon-Redshift-Datenbank ein externes Schema für eine bestimmte Datenkatalogdatenbank, die Ihre Iceberg-Tabellen enthält. Informationen zum Erstellen eines externen Schemas finden Sie unter Externe Schemata in Amazon Redshift Spectrum.
Führen Sie SQL-Abfragen aus, um auf die Iceberg-Tabellen in dem von Ihnen erstellten externen Schema zuzugreifen.

Überlegungen zur Verwendung von Apache-Iceberg-Tabellen mit Amazon Redshift

Bei der Verwendung von Amazon Redshift mit Iceberg-Tabellen sollten Sie Folgendes berücksichtigen:

Unterstützung der Iceberg-Version – Amazon Redshift unterstützt die Ausführung von Abfragen für die folgenden Versionen von Iceberg-Tabellen:
- Version 1 definiert, wie große Analysetabellen mithilfe unveränderlicher Datendateien verwaltet werden.
- Version 2 fügt die Möglichkeit hinzu, Update- und Löschvorgänge auf Zeilenebene zu unterstützen, während die vorhandenen Datendateien unverändert bleiben und die Änderungen der Tabellendaten mithilfe von Löschdateien verarbeitet werden.
Den Unterschied zwischen Tabellen der Version 1 und Version 2 finden Sie unter Formatversionsänderungen in der Apache-Iceberg-Dokumentation.
Hinzufügen von Partitionen – Sie müssen Partitionen für Ihre Apache-Iceberg-Tabellen nicht manuell hinzufügen. Neue Partitionen in Apache-Iceberg-Tabellen werden automatisch von Amazon Redshift erkannt und es ist kein manueller Vorgang erforderlich, um Partitionen in der Tabellendefinition zu aktualisieren. Alle Änderungen der Partitionsspezifikation werden auch automatisch auf Ihre Abfragen angewendet, ohne dass der Benutzer eingreifen muss.
Erfassen von Iceberg-Daten in Amazon Redshift – Sie können die Befehle INSERT INTO oder CREATE TABLE AS verwenden, um Daten aus Ihrer Iceberg-Tabelle in eine lokale Amazon-Redshift-Tabelle zu importieren. Derzeit können Sie den Befehl COPY nicht verwenden, um den Inhalt einer Apache-Iceberg-Tabelle in eine lokale Amazon-Redshift-Tabelle zu importieren.
Materialisierte Ansichten – Sie können materialisierte Ansichten für Apache-Iceberg-Tabellen wie jede andere externe Tabelle in Amazon Redshift erstellen. Die gleichen Überlegungen wie für andere Data-Lake-Tabellenformate gelten auch für Apache-Iceberg-Tabellen. Automatisches Umschreiben von Abfragen und automatische materialisierte Ansichten für Data-Lake-Tabellen werden derzeit nicht unterstützt.
AWS Lake Formation feinkörnige Zugriffskontrolle — Amazon Redshift unterstützt eine AWS Lake Formation differenzierte Zugriffskontrolle für Apache Iceberg-Tabellen.
User-defined Datenverarbeitungsparameter — Amazon Redshift unterstützt benutzerdefinierte Datenverarbeitungsparameter in Apache Iceberg-Tabellen. Sie verwenden benutzerdefinierte Datenverarbeitungsparameter für vorhandene Dateien, um die Daten, die in externen Tabellen abgefragt werden, anzupassen und Scanfehler zu vermeiden. Diese Parameter bieten die Möglichkeit, Diskrepanzen zwischen dem Tabellenschema und den tatsächlichen Daten in Dateien zu bearbeiten. Sie können benutzerdefinierte Datenverarbeitungsparameter auch für Apache-Iceberg-Tabellen verwenden.
Zeitreiseabfragen – Zeitreiseabfragen werden derzeit mit Apache-Iceberg-Tabellen nicht unterstützt.
Preisgestaltung — Wenn Sie von einem RG-Cluster oder einer Redshift Serverless-Arbeitsgruppe aus auf Iceberg-Tabellen zugreifen, werden Data Lake-Abfragen auf den eigenen Rechenressourcen des Clusters oder der Arbeitsgruppe ausgeführt, sodass keine separaten Gebühren für Data-Lake-Abfragen anfallen. Wenn Sie von einem DC2- oder RA3-Cluster aus auf Iceberg-Tabellen zugreifen, werden Ihnen Redshift Spectrum-Preise berechnet. Informationen zu den Preisen finden Sie unter Amazon Redshift Redshift-Preise.
Zwischenspeichern von Metadaten – Beim Zwischenspeichern von Metadaten wird davon ausgegangen, dass Metadatendateien unveränderlich sind, basierend auf der Iceberg-Spezifikation. Die Unveränderlichkeit von Metadatendateien ist eine Voraussetzung für die Datenintegrität in Amazon Redshift.
Föderierte Identität — Föderierte Identität wird beim Schreiben in Apache Iceberg-Tabellen nicht unterstützt. Dazu gehört die Verwendung des Schlüsselworts SESSION für den Parameter IAM_ROLE beim Erstellen externer Schemas. Weitere Informationen zu IAM_ROLE-Parametern finden Sie unter CREATE EXTERNAL SCHEMA.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Externe Tabellen

Unterstützte Datentypen