COPYvon Amazon EMR - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

COPYvon Amazon EMR

Sie können den COPY Befehl verwenden, um Daten parallel aus einem EMR Amazon-Cluster zu laden, der so konfiguriert ist, dass er Textdateien in Form von Dateien mit fester Breite, durch Zeichen getrennten Dateien, Dateien, formatierten Dateien oder Avro-Dateien in das Hadoop Distributed File System (HDFS) des Clusters schreibt. CSV JSON

Syntax

FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]

Beispiel

Im folgenden Beispiel werden Daten aus einem EMR Amazon-Cluster geladen.

copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';

Parameter

FROM

Die Quelle der Daten, die geladen werden sollen.

'emr://emr_cluster_id/hdfs_file_path'

Die eindeutige Kennung für den EMR Amazon-Cluster und der HDFS Dateipfad, der auf die Datendateien für den COPY Befehl verweist. Die Namen der HDFS Datendateien dürfen die Platzhalterzeichen Sternchen (*) und Fragezeichen (?) nicht enthalten.

Anmerkung

Der EMR Amazon-Cluster muss weiterlaufen, bis der COPY Vorgang abgeschlossen ist. Wenn eine der HDFS Datendateien geändert oder gelöscht wird, bevor der COPY Vorgang abgeschlossen ist, kann dies zu unerwarteten Ergebnissen führen, oder der COPY Vorgang schlägt fehl.

Sie können die Platzhalterzeichen Sternchen (*) und Fragezeichen (?) als Teil des hdfs_file_path-Arguments verwenden, um mehrere zu ladende Dateien anzugeben. Beispielsweise identifiziert 'emr://j-SAMPLE2B500FC/myoutput/part*' die Dateien part-0000, part-0001 usw. Wenn der Dateipfad keine Platzhalterzeichen enthält, wird er als Zeichenfolgeliteral behandelt. Wenn Sie nur einen Ordnernamen angeben, wird COPY versucht, alle Dateien im Ordner zu laden.

Wichtig

Wenn Sie Platzhalterzeichen oder nur den Ordnernamen verwenden, müssen Sie überprüfen, ob unerwünschte Dateien geladen werden. Einige Prozesse schreiben beispielsweise eine Protokolldatei in den Ausgabeordner.

Weitere Informationen finden Sie unter Daten von Amazon laden EMR.

Autorisierung

Der COPY Befehl benötigt eine Autorisierung, um auf Daten in einer anderen AWS Ressource zuzugreifen, einschließlich in Amazon S3, AmazonEMR, Amazon DynamoDB und Amazon. EC2 Sie können diese Autorisierung erteilen, indem Sie auf eine Rolle AWS Identity and Access Management (IAM) verweisen, die Ihrem Cluster zugeordnet ist (rollenbasierte Zugriffskontrolle), oder indem Sie die Zugangsdaten für einen Benutzer angeben (schlüsselbasierte Zugriffskontrolle). Für mehr Sicherheit und Flexibilität empfehlen wir die Verwendung einer rollenbasierten Zugriffskontrolle. IAM Weitere Informationen finden Sie unter Autorisierungsparameter.

Unterstützte Parameter

Sie können optional die folgenden Parameter mit COPY from Amazon angebenEMR:

Nicht unterstützte Parameter

Sie können die folgenden Parameter nicht mit COPY von Amazon verwendenEMR:

  • ENCRYPTED

  • MANIFEST

  • REGION

  • READRATIO

  • SSH