Daten in Amazon Redshift laden - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten in Amazon Redshift laden

Es gibt mehrere Möglichkeiten, Daten in eine Amazon Redshift Redshift-Datenbank zu laden. Eine beliebte Datenquelle zum Laden sind Amazon S3 S3-Dateien. In der folgenden Tabelle sind einige der Methoden zusammengefasst, die Sie verwenden können, wenn Sie von einer Amazon S3 S3-Quelle ausgehen.

Zu verwendende Methode Beschreibung Wann die Methode benötigt wird

COPYBefehl

Führt eine Batch-Dateiaufnahme durch, um Daten aus Ihren Amazon S3 S3-Dateien zu laden. Diese Methode nutzt die Parallelverarbeitungsfunktionen von Amazon Redshift. Weitere Informationen finden Sie unter Laden von Tabellen mit dem COPY Befehl.

Sollte verwendet werden, wenn grundlegende Anforderungen zum Laden von Daten erforderlich sind, um die manuelle Aufnahme von Batchdateien zu initiieren. Diese Methode wird hauptsächlich für benutzerdefinierte Pipelines und Dateiaufnahme-Pipelines von Drittanbietern oder für einmalige oder Ad-hoc-Workloads zur Dateiaufnahme verwendet.

COPY... CREATEJOBBefehl (automatisches Kopieren)

Führt Ihre COPY Befehle automatisch aus, wenn eine neue Datei auf verfolgten Amazon S3 S3-Pfaden erstellt wird. Weitere Informationen finden Sie unter Laden von Tabellen mit kontinuierlicher Dateiaufnahme aus Amazon S3 (Vorschau).

Sollte verwendet werden, wenn eine Dateiaufnahme-Pipeline automatisch Daten aufnehmen muss, wenn eine neue Datei auf Amazon S3 erstellt wird. Amazon Redshift verfolgt die aufgenommenen Dateien, um Datenduplikationen zu verhindern. Diese Methode erfordert eine Konfiguration durch Amazon S3 S3-Bucket-Besitzer.

Aus Data Lake-Abfragen laden

Erstellen Sie externe Tabellen, um Data-Lake-Abfragen für Ihre Amazon S3 S3-Dateien auszuführen, und führen Sie dann den INSERT INTO Befehl aus, um die Ergebnisse Ihrer Data-Lake-Abfragen in lokale Tabellen zu laden. Weitere Informationen finden Sie unter Externe Tabellen für Redshift Spectrum.

Sollte in einem der folgenden Szenarien verwendet werden:

  • Tabellenformate werden aus Dateien geladen AWS Glue und geöffnet (wie Apache Iceberg, Apache Hudi oder Delta Lake).

  • Quelldateien müssen teilweise aufgenommen werden (z. B. für die Ausführung einer WHERE Klausel zur Aufnahme bestimmter Zeilen erforderlich).

  • Es ist mehr Flexibilität erforderlich, um bestimmte Spalten aufzunehmen (z. B. einen SELECT Befehl auszuführen) oder grundlegende Datentransformationen unterwegs durchzuführen (z. B. grundlegende Operationen anzuwenden oder Werte aus der Quelldatei aufzurufenUDFs).

Andere Methoden, die Sie in Betracht ziehen können

Streaming-Erfassung

Die Streaming-Aufnahme ermöglicht die Aufnahme von Stream-Daten aus Amazon Kinesis Data Streams und Amazon Managed Streaming for Apache Kafka mit niedriger Latenz und hoher Geschwindigkeit in eine von Amazon Redshift bereitgestellte oder redshift serverlose materialisierte Ansicht. Weitere Informationen erhalten Sie unter Erste Schritte mit der Streaming-Erfassung aus Amazon Kinesis Data Streams und Erste Schritte mit der Streaming-Aufnahme von Amazon Managed Streaming for Apache Kafka (Amazon) MSK.

Sollte für Anwendungsfälle in Betracht gezogen werden, in denen Daten zuerst in Dateien auf Amazon S3 gestreamt und dann aus Amazon S3 geladen werden. Wenn die Aufbewahrung von Daten auf Amazon S3 nicht erforderlich ist, können Sie häufig erwägen, Ihre Daten direkt in Amazon Redshift zu streamen.

Ausführen von Data-Lake-Abfragen

Abfragen direkt aus einer Data-Lake-Tabelle ausführen, anstatt den Inhalt der Tabelle in eine lokale Tabelle aufzunehmen. Weitere Informationen finden Sie unter Amazon Redshift Spectrum.

Sollte verwendet werden, wenn der Anwendungsfall nicht die Leistung von lokalen Tabellenabfragen in Amazon Redshift erfordert.

Batch-Laden mit dem Amazon Redshift Query Editor v2

Sie können Ihre Workloads zur Batch-Dateiaufnahme visuell im Amazon Redshift Query Editor v2 vorbereiten und ausführen. Weitere Informationen finden Sie unter Daten aus S3 laden im Amazon Redshift Management Guide.

Sollte verwendet werden, wenn Sie möchten, dass der Abfrage-Editor v2 COPY Anweisungen vorbereitet und Sie ein visuelles Tool benötigen, um den Prozess der Erstellung von COPY Kontoauszügen zu vereinfachen.

Daten mit dem Amazon Redshift Query Editor v2 aus einer lokalen Datei laden

Sie können Dateien direkt von Ihrem Desktop in Amazon Redshift Redshift-Tabellen hochladen, ohne Ihre Dateien manuell in Amazon S3 hochladen zu müssen. Weitere Informationen finden Sie unter Laden von Daten aus einer lokalen Datei, Einrichtung und Workflow im Amazon Redshift Management Guide.

Sollte verwendet werden, wenn Sie Dateien für einmalige Abfragen schnell von Ihrem lokalen Computer laden müssen. Mit dieser Methode speichert Amazon Redshift Query Editor v2 die Datei vorübergehend in einem kundeneigenen Amazon S3 S3-Bucket und führt einen Kopierbefehl unter Verwendung dieses Amazon S3 S3-Pfads aus.

Ein COPY Befehl ist die effizienteste Methode, eine Tabelle zu laden. Sie können Ihren Tabellen auch mithilfe von INSERT Befehlen Daten hinzufügen, obwohl dies viel weniger effizient ist als die Verwendung vonCOPY. Der COPY Befehl kann aus mehreren Datendateien oder mehreren Datenströmen gleichzeitig lesen. Amazon Redshift weist die Arbeitslast den Amazon Redshift Redshift-Knoten zu und führt die Ladevorgänge parallel aus, einschließlich der Sortierung der Zeilen und der Verteilung der Daten auf Knotenbereiche.

Anmerkung

Externe Tabellen von Amazon Redshift Spectrum sind schreibgeschützt. Sie können nicht COPY oder INSERT zu einer externen Tabelle.

Um auf Daten auf anderen AWS Ressourcen zugreifen zu können, benötigt Amazon Redshift die Erlaubnis, auf diese Ressourcen zuzugreifen und die erforderlichen Aktionen für den Zugriff auf die Daten durchzuführen. Sie können AWS Identity and Access Management (IAM) verwenden, um den Zugriff der Benutzer auf Amazon Redshift Redshift-Ressourcen und -Daten einzuschränken.

Wenn Sie nach dem ersten Laden von Daten eine erhebliche Datenmenge hinzufügen, ändern oder löschen, sollten Sie anschließend einen VACUUM Befehl ausführen, um Ihre Daten neu zu organisieren und Speicherplatz nach Löschungen freizugeben. Sie sollten auch einen ANALYZE Befehl ausführen, um die Tabellenstatistiken zu aktualisieren.