EMR File System (EMRFS) - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

EMR File System (EMRFS)

Das EMR File System (EMRFS) ist eine HDFS-Implementierung, die von allen Amazon-EMR-Clustern verwendet wird, um reguläre Dateien von Amazon EMR direkt zu Amazon S3 zu lesen und zu schreiben. EMRFS bietet die praktische Möglichkeit der Speicherung von persistenten Daten in Amazon S3 zur Nutzung mit Hadoop. Gleichzeitig stehen Features wie die Datenverschlüsselung zur Verfügung.

Die Datenverschlüsselung ermöglicht Ihnen das Verschlüsseln von Objekten, die EMRFS zu Amazon S3 schreibt, und ermöglicht EMRFS das Arbeiten mit verschlüsselten Objekten in Amazon S3. Wenn Sie die Amazon-EMR-Version 4.8.0 oder höher verwenden, können Sie Sicherheitskonfigurationen für die Einrichtung der Verschlüsselung von EMRFS-Objekten in Amazon S3 verwenden, zusammen mit anderen Verschlüsselungseinstellungen. Weitere Informationen finden Sie unter Verschlüsselungsoptionen. Wenn Sie eine ältere Version von Amazon EMR verwenden, können Sie Verschlüsselungseinstellungen manuell konfigurieren. Weitere Informationen finden Sie unter Angeben der Amazon-S3-Verschlüsselung mit EMRFS-Eigenschaften.

Amazon S3 bietet eine hohe Konsistenz beim Lesen nach dem Schreiben für alle GET-, PUT- und LIST-Operationen AWS-Regionen. Das bedeutet, dass das, was Sie mit EMRFS schreiben, das ist, was Sie aus Amazon S3 lesen, ohne dass die Leistung beeinträchtigt wird. Weitere Informationen finden Sie unter Amazon-S3-Datenkonsistenzmodell.

Wenn Sie die Amazon-EMR-Version 5.10.0 oder höher verwenden, können Sie verschiedene IAM-Rollen für EMRFS-Anfragen an Amazon S3 verwenden, basierend auf Cluster-Benutzern oder Gruppen oder auf dem Speicherort von EMRFS-Daten in Amazon S3. Weitere Informationen finden Sie unter Konfigurieren von IAM-Rollen für EMRFS-Anforderungen an Amazon S3.

Warnung

Bevor Sie die spekulative Ausführung für Amazon-EMR-Cluster aktivieren, auf denen Apache-Spark-Aufträge ausgeführt werden, lesen Sie bitte die folgenden Informationen.

EMRFS umfasst den EMRFS S3-optimierten Committer, eine OutputCommitter Implementierung, die für das Schreiben von Dateien in Amazon S3 bei Verwendung von EMRFS optimiert ist. Wenn Sie das spekulative Ausführungsfeature von Apache Spark mit Anwendungen aktivieren, die Daten in Amazon S3 schreiben und den EMRFS-S3-optimierten Committer nicht verwenden, können Probleme mit der Datenkorrektheit auftreten, die in SPARK-10063 beschrieben sind. Dies kann auftreten, wenn Sie Amazon-EMR-Versionen vor Amazon-EMR-Version 5.19 verwenden oder wenn Sie Dateien mit Formaten wie ORC und CSV auf Amazon S3 schreiben. Diese Formate werden vom EMRFS-S3-optimierten Committer nicht unterstützt. Eine vollständige Liste der Anforderungen für die Verwendung des EMRFS-S3-optimierten Committers finden Sie unter Anforderungen für den EMRFS-S3-optimierten Committer.

EMRFS Direct Write wird in der Regel verwendet, wenn der EMRFS-S3-optimierte Committer nicht unterstützt wird, z. B. wenn Folgendes geschrieben wird:

Ein anderes Ausgabeformat als Parquet, z. B. ORC oder Text.
Hadoop-Dateien, die die Spark-RDD-API verwenden.
Parquet mit Hive. SerDe Sehen Sie unter Konvertierung der Parquet-Tabelle in Hive Metastore.

EMRFS-Direct-Write-Verfahren wird in den folgenden Szenarien nicht verwendet:

Wenn der S3-optimierte EMRFS-Committer aktiviert ist. Sehen Sie unter Anforderungen für den S3-optimierten EMRFS-Committer.
Beim Schreiben dynamischer Partitionen, bei denen die partitionOverwriteMode Einstellung auf dynamisch gesetzt ist.
Beim Schreiben in benutzerdefinierte Partitionsspeicherorte, z. B. an Speicherorte, die nicht der Hive-Standardkonvention für Partitionen entsprechen.
Wenn Sie andere Dateisysteme als EMRFS verwenden, z. B. beim Schreiben in HDFS oder beim Verwenden des S3A-Dateisystems.

Um festzustellen, ob Ihre Anwendung Direct Write in Amazon EMR 5.14.0 oder höher verwendet, aktivieren Sie die Spark-INFO-Protokollierung. Wenn eine Protokollzeile mit dem Text „Direct Write: ENABLED“ entweder in den Spark-Treiberprotokollen oder in den Spark-Executor-Container-Protokollen vorhanden ist, dann hat Ihre Spark-Anwendung mit Direct Write geschrieben.

Standardmäßig ist die spekulative Ausführung bei Amazon OFF EMRclusters aktiviert. Wir empfehlen dringend, die spekulative Ausführung nicht zu aktivieren, wenn diese beiden Bedingungen zutreffen:

Sie schreiben Daten in Amazon S3.
Daten werden in einem anderen Format als Apache Parquet oder im Apache-Parquet-Format ohne den für EMRFS-S3-optimierten Committer geschrieben.

Wenn Sie die spekulative Ausführung von Spark aktivieren und Daten mithilfe von EMRFS Direct Write auf Amazon S3 schreiben, kann es zu zeitweiligem Datenverlust kommen. Wenn Sie Daten in HDFS schreiben oder Daten mit dem EMRFS-S3-optimierten Committer in Parquet schreiben, verwendet Amazon EMR kein direktes Schreiben und dieses Problem tritt nicht auf.

Wenn Sie Daten in Formaten schreiben müssen, die EMRFS Direct Write von Spark nach Amazon S3 verwenden und spekulative Ausführung verwenden, empfehlen wir, in HDFS zu schreiben und dann die Ausgabedateien mit S3DistCP nach Amazon S3 zu übertragen.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Überprüfen von Abhängigkeiten mit dem Artefakt-Repository

Consistent view

Wählen Sie Ihre Cookie-Einstellungen aus

Cookie-Einstellungen anpassen

Essenziell

Leistung

Funktional

Werbung

Cookie-Einstellungen konnten nicht gespeichert werden

EMR File System (EMRFS)

Warnung

Themen

Hat Ihnen diese Seite geholfen?

Nächstes Thema:

Vorheriges Thema:

Brauchen Sie Hilfe?