Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
EMRDateisystem (EMRFS)
Das EMR Dateisystem (EMRFS) ist eine ImplementierungHDFS, die alle EMR Amazon-Cluster verwenden, um reguläre Dateien von Amazon EMR direkt in Amazon S3 zu lesen und zu schreiben. EMRFSbietet den Komfort, persistente Daten in Amazon S3 zur Verwendung mit Hadoop zu speichern und bietet gleichzeitig Funktionen wie Datenverschlüsselung.
Datenverschlüsselung ermöglicht es Ihnen, Objekte zu verschlüsselnEMRFS, die in Amazon S3 schreiben, und ermöglicht EMRFS die Arbeit mit verschlüsselten Objekten in Amazon S3. Wenn Sie die EMR Amazon-Release-Version 4.8.0 oder höher verwenden, können Sie Sicherheitskonfigurationen verwenden, um die Verschlüsselung für EMRFS Objekte in Amazon S3 zusammen mit anderen Verschlüsselungseinstellungen einzurichten. Weitere Informationen finden Sie unter Verschlüsselungsoptionen. Wenn Sie eine frühere Version von Amazon verwendenEMR, können Sie die Verschlüsselungseinstellungen manuell konfigurieren. Weitere Informationen finden Sie unter Amazon S3 S3-Verschlüsselung mithilfe von EMRFS Eigenschaften angeben.
Amazon S3 bietet eine hohe Konsistenz beim Lesen nach dem Schreiben für alle GETPUT, und alle LIST Operationen. AWS-Regionen Das bedeutet, dass das, was Sie verwenden, das EMRFS ist, was Sie aus Amazon S3 lesen, ohne dass die Leistung beeinträchtigt wird. Weitere Informationen finden Sie unter Amazon-S3-Datenkonsistenzmodell.
Wenn Sie die EMR Amazon-Release-Version 5.10.0 oder höher verwenden, können Sie je nach Cluster-Benutzern, Gruppen oder dem Speicherort der EMRFS Daten in Amazon S3 unterschiedliche IAM Rollen für EMRFS Anfragen an Amazon S3 verwenden. Weitere Informationen finden Sie unter IAM Rollen für EMRFS Anfragen an Amazon S3 konfigurieren.
Warnung
Bevor Sie die spekulative Ausführung für EMR Amazon-Cluster aktivieren, auf denen Apache Spark-Jobs ausgeführt werden, lesen Sie bitte die folgenden Informationen.
EMRFSbeinhaltet den EMRFS S3-optimierten Committer, eine OutputCommitter Implementierung, die für das Schreiben von Dateien in Amazon S3 bei Verwendung optimiert ist. EMRFS Wenn Sie die spekulative Ausführungsfunktion von Apache Spark mit Anwendungen aktivieren, die Daten in Amazon S3 schreiben und den EMRFS S3-optimierten Committer nicht verwenden, können Probleme mit der Datenkorrektheit auftreten, die in -10063 beschrieben werden. SPARK
EMRFSDirect Write wird normalerweise verwendet, wenn der EMRFS S3-optimierte Committer nicht unterstützt wird, z. B. wenn Folgendes geschrieben wird:
Ein anderes Ausgabeformat als Parquet, z. B. ORC oder Text.
Hadoop-Dateien, die den Spark RDD API verwenden.
Parkett mit Hive SerDe. Sehen Sie unter Konvertierung der Parquet-Tabelle in Hive Metastore
.
EMRFSDirect Write wird in den folgenden Szenarien nicht verwendet:
Wenn der EMRFS S3-optimierte Committer aktiviert ist. Weitere Informationen finden Sie unter Anforderungen für den S3-optimierten Committer EMRFS.
Beim Schreiben dynamischer Partitionen mit der partitionOverwriteMode Einstellung „dynamisch“.
Beim Schreiben in benutzerdefinierte Partitionsspeicherorte, z. B. an Speicherorte, die nicht der Hive-Standardkonvention für Partitionen entsprechen.
Wenn Sie andere Dateisysteme als EMRFS das S3A-Dateisystem verwenden HDFS oder es verwenden.
Um festzustellen, ob Ihre Anwendung Direct Write in Amazon EMR 5.14.0 oder höher verwendet, aktivieren Sie die INFO Spark-Protokollierung. Wenn eine Protokollzeile mit dem Text „Direct Write:ENABLED“ entweder in den Spark-Treiberprotokollen oder den Spark-Executor-Container-Protokollen vorhanden ist, dann hat Ihre Spark-Anwendung mit Direct Write geschrieben.
Standardmäßig ist die spekulative Ausführung bei Amazon OFF
EMRclusters aktiviert. Wir empfehlen dringend, die spekulative Ausführung nicht zu aktivieren, wenn diese beiden Bedingungen zutreffen:
Sie schreiben Daten in Amazon S3.
Daten werden in einem anderen Format als Apache Parquet oder im Apache Parquet-Format ohne Verwendung des EMRFS S3-optimierten Committers geschrieben.
Wenn Sie die spekulative Ausführung von Spark aktivieren und Daten mit EMRFS Direct Write auf Amazon S3 schreiben, kann es zu zeitweiligem Datenverlust kommen. Wenn Sie mit dem EMRFS S3-optimierten Committer Daten in Parquet schreiben oder Daten in Parquet schreiben, verwendet Amazon EMR kein direktes Schreiben und dieses Problem tritt nicht auf. HDFS
Wenn Sie Daten in Formaten schreiben müssen, die EMRFS direktes Schreiben von Spark nach Amazon S3 verwenden und spekulative Ausführung verwenden, empfehlen wir, mit S3DistCP in Amazon S3 zu schreiben HDFS und dann Ausgabedateien an Amazon S3 zu übertragen.