Laden von Datendateien - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Laden von Datendateien

Quelldatendateien weisen verschiedene Formate auf und verwenden unterschiedliche Komprimierungsalgorithmen. Beim Laden von Daten mit dem COPY Befehl lädt Amazon Redshift alle Dateien, auf die das Amazon S3 S3-Bucket-Präfix verweist. (Bei dem Präfix handelt es sich um eine Zeichenfolge am Anfang des Objektschlüsselnamens.) Wenn sich das Präfix auf mehrere Dateien bezieht oder Dateien, die aufgeteilt werden können, lädt Amazon Redshift die Daten parallel und nutzt dabei die Architektur von Amazon Redshift. MPP Dadurch wird der Workload auf die Knoten im Cluster verteilt. Wenn Sie dagegen Daten aus einer Datei laden, die nicht aufgeteilt werden kann, muss Amazon Redshift einen serialisierten Ladevorgang durchführen, was viel langsamer ist. In den folgenden Abschnitten wird die empfohlene Methode zum Laden verschiedener Dateitypen in Amazon Redshift je nach Format und Komprimierung beschrieben.

Laden von Daten aus Dateien, die aufgeteilt werden können

Die folgenden Dateien können automatisch aufgeteilt werden, wenn ihre Daten geladen werden:

  • eine unkomprimierte Datei CSV

  • eine komprimierte CSV Datei mit BZIP

  • eine spaltenförmige Datei (ORCParquet/)

Amazon Redshift teilt Dateien mit mindestens 128 MB automatisch in Blöcke auf. Spaltendateien, insbesondere Parquet und, werden nicht aufgeteiltORC, wenn sie weniger als 128 MB groß sind. Redshift verwendet zum Laden der Daten parallel arbeitende Slices. Dadurch ergibt sich beim Laden eine hohe Leistung.

Laden von Daten aus Dateien, die nicht aufgeteilt werden können

Dateitypen wie oder JSONCSV, wenn sie mit anderen Komprimierungsalgorithmen komprimiert wurden, werden GZIP nicht automatisch aufgeteilt. In diesen Fällen empfehlen wir, die Daten manuell in mehrere kleinere Dateien von ungefähr gleicher Größe zwischen 1 MB und 1 GB nach der Komprimierung aufzuteilen. Nutzen Sie zudem als Anzahl der Dateien ein Vielfaches der Anzahl der Slices in Ihrem Cluster. Weitere Informationen zum Aufteilen Ihrer Daten in mehrere Dateien und Beispiele für das Laden von Daten mit COPY finden Sie unter Daten aus Amazon S3 laden.