Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
COPYvon Amazon EMR
Sie können den COPY Befehl verwenden, um Daten parallel aus einem EMR Amazon-Cluster zu laden, der so konfiguriert ist, dass er Textdateien in Form von Dateien mit fester Breite, durch Zeichen getrennten Dateien, Dateien, formatierten Dateien oder Avro-Dateien in das Hadoop Distributed File System (HDFS) des Clusters schreibt. CSV JSON
Syntax
FROM 'emr://emr_cluster_id/hdfs_filepath' authorization [ optional_parameters ]
Beispiel
Im folgenden Beispiel werden Daten aus einem EMR Amazon-Cluster geladen.
copy sales from 'emr://j-SAMPLE2B500FC/myoutput/part-*' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole';
Parameter
- FROM
-
Die Quelle der Daten, die geladen werden sollen.
- 'emr://emr_cluster_id/hdfs_file_path'
-
Die eindeutige Kennung für den EMR Amazon-Cluster und der HDFS Dateipfad, der auf die Datendateien für den COPY Befehl verweist. Die Namen der HDFS Datendateien dürfen die Platzhalterzeichen Sternchen (*) und Fragezeichen (?) nicht enthalten.
Anmerkung
Der EMR Amazon-Cluster muss weiterlaufen, bis der COPY Vorgang abgeschlossen ist. Wenn eine der HDFS Datendateien geändert oder gelöscht wird, bevor der COPY Vorgang abgeschlossen ist, kann dies zu unerwarteten Ergebnissen führen, oder der COPY Vorgang schlägt fehl.
Sie können die Platzhalterzeichen Sternchen (*) und Fragezeichen (?) als Teil des hdfs_file_path-Arguments verwenden, um mehrere zu ladende Dateien anzugeben. Beispielsweise identifiziert
'emr://j-SAMPLE2B500FC/myoutput/part*'
die Dateienpart-0000
,part-0001
usw. Wenn der Dateipfad keine Platzhalterzeichen enthält, wird er als Zeichenfolgeliteral behandelt. Wenn Sie nur einen Ordnernamen angeben, wird COPY versucht, alle Dateien im Ordner zu laden.Wichtig
Wenn Sie Platzhalterzeichen oder nur den Ordnernamen verwenden, müssen Sie überprüfen, ob unerwünschte Dateien geladen werden. Einige Prozesse schreiben beispielsweise eine Protokolldatei in den Ausgabeordner.
Weitere Informationen finden Sie unter Daten von Amazon laden EMR.
- Autorisierung
-
Der COPY Befehl benötigt eine Autorisierung, um auf Daten in einer anderen AWS Ressource zuzugreifen, einschließlich in Amazon S3, AmazonEMR, Amazon DynamoDB und Amazon. EC2 Sie können diese Autorisierung erteilen, indem Sie auf eine Rolle AWS Identity and Access Management (IAM) verweisen, die Ihrem Cluster zugeordnet ist (rollenbasierte Zugriffskontrolle), oder indem Sie die Zugangsdaten für einen Benutzer angeben (schlüsselbasierte Zugriffskontrolle). Für mehr Sicherheit und Flexibilität empfehlen wir die Verwendung einer rollenbasierten Zugriffskontrolle. IAM Weitere Informationen finden Sie unter Autorisierungsparameter.
Unterstützte Parameter
Sie können optional die folgenden Parameter mit COPY from Amazon angebenEMR:
Nicht unterstützte Parameter
Sie können die folgenden Parameter nicht mit COPY von Amazon verwendenEMR:
-
ENCRYPTED
-
MANIFEST
-
REGION
-
READRATIO
-
SSH