Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Daten in Amazon Redshift laden
Es gibt mehrere Möglichkeiten, Daten in eine Amazon Redshift Redshift-Datenbank zu laden. Eine beliebte Datenquelle zum Laden sind Amazon S3 S3-Dateien. In der folgenden Tabelle sind einige der Methoden zusammengefasst, die Sie verwenden können, wenn Sie von einer Amazon S3 S3-Quelle ausgehen.
Zu verwendende Methode | Beschreibung | Wann die Methode benötigt wird |
---|---|---|
Befehl COPY |
Führt eine Batch-Dateiaufnahme durch, um Daten aus Ihren Amazon S3 S3-Dateien zu laden. Diese Methode nutzt die Parallelverarbeitungsfunktionen von Amazon Redshift. Weitere Informationen finden Sie unter Laden von Tabellen mit dem Befehl COPY. |
Sollte verwendet werden, wenn grundlegende Anforderungen zum Laden von Daten erforderlich sind, um die manuelle Aufnahme von Batchdateien zu initiieren. Diese Methode wird hauptsächlich für benutzerdefinierte Pipelines und Dateiaufnahme-Pipelines von Drittanbietern oder für einmalige oder Ad-hoc-Workloads zur Dateiaufnahme verwendet. |
KOPIEREN... Befehl CREATE JOB (automatisches Kopieren) |
Führt Ihre COPY-Befehle automatisch aus, wenn eine neue Datei auf verfolgten Amazon S3 S3-Pfaden erstellt wird. Weitere Informationen finden Sie unter Erstellen Sie eine S3-Event-Integration, um Dateien automatisch aus Amazon S3 S3-Buckets zu kopieren. |
Sollte verwendet werden, wenn eine Dateiaufnahme-Pipeline automatisch Daten aufnehmen muss, wenn eine neue Datei auf Amazon S3 erstellt wird. Amazon Redshift verfolgt die aufgenommenen Dateien, um Datenduplikationen zu verhindern. Diese Methode erfordert eine Konfiguration durch Amazon S3 S3-Bucket-Besitzer. |
Aus Data Lake-Abfragen laden |
Erstellen Sie externe Tabellen, um Data Lake-Abfragen für Ihre Amazon S3 S3-Dateien auszuführen, und führen Sie dann den Befehl INSERT INTO aus, um die Ergebnisse Ihrer Data-Lake-Abfragen in lokale Tabellen zu laden. Weitere Informationen finden Sie unter Externe Tabellen für Redshift Spectrum. |
Sollte in einem der folgenden Szenarien verwendet werden:
|
Andere Methoden, die Sie in Betracht ziehen können | ||
Streaming-Erfassung |
Die Streaming-Aufnahme ermöglicht die Aufnahme von Stream-Daten aus Amazon Kinesis Data Streams und Amazon Managed Streaming for Apache Kafka mit niedriger Latenz und hoher Geschwindigkeit in eine von Amazon Redshift bereitgestellte oder redshift serverlose materialisierte Ansicht. Weitere Informationen erhalten Sie unter Erste Schritte mit der Streaming-Erfassung aus Amazon Kinesis Data Streams und Erste Schritte mit der Streaming-Aufnahme aus Apache Kafka-Quellen. |
Sollte für Anwendungsfälle in Betracht gezogen werden, in denen Daten zuerst in Dateien auf Amazon S3 gestreamt und dann aus Amazon S3 geladen werden. Wenn die Aufbewahrung von Daten auf Amazon S3 nicht erforderlich ist, können Sie häufig erwägen, Ihre Daten direkt in Amazon Redshift zu streamen. |
Ausführen von Data-Lake-Abfragen |
Abfragen direkt aus einer Data-Lake-Tabelle ausführen, anstatt den Inhalt der Tabelle in eine lokale Tabelle aufzunehmen. Weitere Informationen finden Sie unter Amazon Redshift Spectrum. |
Sollte verwendet werden, wenn der Anwendungsfall nicht die Leistung von lokalen Tabellenabfragen in Amazon Redshift erfordert. |
Batch-Laden mit dem Amazon Redshift Query Editor v2 |
Sie können Ihre Workloads zur Batch-Dateiaufnahme visuell im Amazon Redshift Query Editor v2 vorbereiten und ausführen. Weitere Informationen finden Sie unter Daten aus S3 laden im Amazon Redshift Management Guide. |
Sollte verwendet werden, wenn Sie möchten, dass der Abfrage-Editor v2 COPY-Anweisungen vorbereitet und Sie ein visuelles Tool benötigen, um den Prozess der COPY-Anweisung zu vereinfachen. |
Daten mit dem Amazon Redshift Query Editor v2 aus einer lokalen Datei laden |
Sie können Dateien direkt von Ihrem Desktop in Amazon Redshift Redshift-Tabellen hochladen, ohne Ihre Dateien manuell in Amazon S3 hochladen zu müssen. Weitere Informationen finden Sie unter Laden von Daten aus einer lokalen Datei, Einrichtung und Workflow im Amazon Redshift Management Guide. |
Sollte verwendet werden, wenn Sie Dateien für einmalige Abfragen schnell von Ihrem lokalen Computer laden müssen. Mit dieser Methode speichert Amazon Redshift Query Editor v2 die Datei vorübergehend in einem kundeneigenen Amazon S3 S3-Bucket und führt einen Kopierbefehl unter Verwendung dieses Amazon S3 S3-Pfads aus. |
Ein COPY-Befehl ist die effizienteste Methode für das Laden einer Tabelle. Sie können Ihren Tabellen Daten auch mittels des Befehls INSERT hinzufügen. Dies ist jedoch sehr viel weniger effizient als die Verwendung von COPY. Der Befehl COPY ist in der Lage, mehrere Datendateien oder mehrere Datenströme gleichzeitig zu lesen. Amazon Redshift weist die Arbeitslast den Amazon Redshift Redshift-Knoten zu und führt die Ladevorgänge parallel aus, einschließlich der Sortierung der Zeilen und der Verteilung der Daten auf Knotenbereiche.
Anmerkung
Externe Tabellen von Amazon Redshift Spectrum sind schreibgeschützt. Sie können die Befehle COPY oder INSERT nicht für externe Tabellen ausführen.
Um auf Daten auf anderen AWS Ressourcen zugreifen zu können, benötigt Amazon Redshift die Erlaubnis, auf diese Ressourcen zuzugreifen und die erforderlichen Aktionen für den Zugriff auf die Daten durchzuführen. Sie können AWS Identity and Access Management (IAM) verwenden, um den Zugriff der Benutzer auf Amazon Redshift Redshift-Ressourcen und -Daten einzuschränken.
Wenn Sie nach dem ersten Laden von Daten eine erhebliche Menge von Daten hinzufügen, verändern oder löschen, sollten Sie anschließend einen VACUUM-Befehl ausführen, um Ihre Daten neu zu organisieren und Platz zurückzugewinnen. Sie sollten auch einen ANALYZE-Befehl ausführen, um die Tabellenstatistiken zu aktualisieren.