Voraussetzungen für die Verwendung von Apache Iceberg Tables als Ziel - Amazon Data Firehose

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Voraussetzungen für die Verwendung von Apache Iceberg Tables als Ziel

Wählen Sie aus den folgenden Optionen, um die erforderlichen Voraussetzungen zu erfüllen.

Voraussetzungen für die Lieferung an Iceberg Tables in Amazon S3

Bevor Sie beginnen, müssen Sie die folgenden Voraussetzungen erfüllen.

  • Erstellen Sie einen Amazon S3 S3-Bucket — Sie müssen einen Amazon S3 S3-Bucket erstellen, um bei der Tabellenerstellung einen Metadatendateipfad hinzuzufügen. Weitere Informationen finden Sie unter Einen S3-Bucket erstellen.

  • Erstellen Sie eine IAM Rolle mit den erforderlichen Berechtigungen — Firehose benötigt eine IAM Rolle mit bestimmten Berechtigungen, um auf AWS Glue Tabellen zuzugreifen und Daten in Amazon S3 zu schreiben. Dieselbe Rolle wird verwendet, um AWS Glue Zugriff auf Amazon S3 S3-Buckets zu gewähren. Sie benötigen diese IAM Rolle, wenn Sie Iceberg Table und einen Firehose-Stream erstellen. Weitere Informationen finden Sie unter Firehose Zugriff auf ein Apache Iceberg Tables-Ziel gewähren.

  • Apache Iceberg-Tabellen erstellen — Wenn Sie eindeutige Schlüssel im Firehose-Stream für Aktualisierungen und Löschungen konfigurieren, überprüft Firehose, ob die Tabelle und die eindeutigen Schlüssel als Teil der Stream-Erstellung existieren. Für dieses Szenario müssen Sie Tabellen erstellen, bevor Sie den Firehose-Stream erstellen. Sie können es verwenden AWS Glue , um Apache Iceberg-Tabellen zu erstellen. Weitere Informationen finden Sie unter Creating Apache Iceberg tables. Wenn Sie keine eindeutigen Schlüssel im Firehose-Stream konfigurieren, müssen Sie keine Iceberg-Tabellen erstellen, bevor Sie einen Firehose-Stream erstellen.

    Anmerkung

    Firehose unterstützt die folgende Tabellenversion und das folgende Format für Apache Iceberg-Tabellen.

    • Version im Tabellenformat — Firehose unterstützt nur das V2-Tabellenformat. Erstellen Sie keine Tabellen im V1-Format, da Sie sonst eine Fehlermeldung erhalten und die Daten stattdessen an den S3-Fehler-Bucket gesendet werden.

    • Datenspeicherformat — Firehose schreibt Daten im Parquet-Format in Apache Iceberg-Tabellen.

    • Operation auf Zeilenebene — Firehose unterstützt den Modus Merge-on-Read (MOR) zum Schreiben von Daten in Apache Iceberg-Tabellen.

Voraussetzungen für die Lieferung an Amazon S3 S3-Tabellen

Um Daten an Amazon S3 S3-Tabellen-Buckets zu liefern, müssen Sie die folgenden Voraussetzungen erfüllen.

  • Erstellen Sie eine IAM Rolle mit den erforderlichen Berechtigungen — Firehose benötigt eine IAM Rolle mit bestimmten Berechtigungen, um auf AWS Glue Tabellen zuzugreifen und Daten in Tabellen in einem Amazon S3 S3-Tabellen-Bucket zu schreiben. Um in Tabellen in einem S3-Tabellen-Bucket zu schreiben, müssen Sie der IAM Rolle auch die erforderlichen Berechtigungen in AWS Lake Formation geben. Sie konfigurieren diese IAM Rolle, wenn Sie einen Firehose erstellen. Weitere Informationen finden Sie unter Firehose Zugriff auf Amazon S3 S3-Tabellen gewähren.

  • Erstellen Sie einen S3-Tabellen-Bucket, einen Namespace, Tabellen im Tabellen-Bucket und andere Integrationsschritte, die unter Integration von Amazon S3 S3-Tabellen mit AWS Analyseservices beschrieben werden.

    Anmerkung

    Erteilen Sie in den beschriebenen Schritten die AWS Lake Formation DESCRIBE Erlaubnis für die IAM Rolle, die Sie zuvor erstellt haben.

    Sie verwenden die im Rahmen der Voraussetzungen erstellten Ressourcen-Link-Namen für Datenbank und Tabelle als Datenbank- und Tabellennamen in Ihrer Firehose-Stream-Konfiguration für Routing-Zwecke. Sie können sie im Abschnitt Unique Key Ihrer Firehose-Stream-Konfiguration verwenden, wenn Sie an eine einzelne Tabelle weiterleiten, oder sie als Teil Ihrer Eingabedaten senden, damit Firehose sie mithilfe von JSON Abfrageausdrücken zur richtigen Tabelle weiterleitet.

    Weitere Möglichkeiten zum Erstellen von Ressourcenlinks finden Sie unter Erstellen eines Ressourcenlinks zu einer gemeinsam genutzten Datenkatalogtabelle oder Erstellen eines Ressourcenlinks zu einer gemeinsam genutzten Datenkatalogdatenbank im Lake Formation Formation-Benutzerhandbuch.