EMRFile system (EMRFS) - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

EMRFile system (EMRFS)

Il EMR File System (EMRFS) è un'implementazione utilizzata da tutti HDFS i EMR cluster Amazon per leggere e scrivere file normali da Amazon EMR direttamente ad Amazon S3. EMRFSoffre la comodità di archiviare dati persistenti in Amazon S3 per l'utilizzo con Hadoop, fornendo al contempo funzionalità come la crittografia dei dati.

La crittografia dei dati consente di crittografare gli oggetti che EMRFS scrivono su Amazon S3 e EMRFS consente di lavorare con oggetti crittografati in Amazon S3. Se utilizzi la EMR versione 4.8.0 o successiva di Amazon, puoi utilizzare le configurazioni di sicurezza per configurare la crittografia EMRFS degli oggetti in Amazon S3, insieme ad altre impostazioni di crittografia. Per ulteriori informazioni, consulta Opzioni di crittografia. Se utilizzi una versione precedente di AmazonEMR, puoi configurare manualmente le impostazioni di crittografia. Per ulteriori informazioni, consulta Specificazione della crittografia Amazon S3 tramite proprietà EMRFS.

Amazon S3 offre una forte coerenza tra lettura e scrittura per tutti e LIST tutte GET PUT le operazioni. Regioni AWS Ciò significa che ciò che usi per scrivere EMRFS è quello che leggerai da Amazon S3, senza alcun impatto sulle prestazioni. Per maggiori informazioni, consulta il modello di consistenza dei dati di Amazon S3.

Quando utilizzi la EMR versione 5.10.0 o successiva di Amazon, puoi utilizzare IAM ruoli diversi per EMRFS le richieste ad Amazon S3 in base agli utenti del cluster, ai gruppi o alla posizione EMRFS dei dati in Amazon S3. Per ulteriori informazioni, consulta Configurare IAM i ruoli per EMRFS le richieste ad Amazon S3.

avvertimento

Prima di attivare l'esecuzione speculativa per EMR i cluster Amazon che eseguono job Apache Spark, consulta le seguenti informazioni.

EMRFSinclude il committer EMRFS ottimizzato per S3, un' OutputCommitter implementazione ottimizzata per la scrittura di file su Amazon S3 durante l'utilizzo. EMRFS Se attivi la funzionalità di esecuzione speculativa di Apache Spark con applicazioni che scrivono dati su Amazon S3 e non utilizzano il committer EMRFS ottimizzato per S3, potresti riscontrare problemi di correttezza dei dati descritti in -10063. SPARK Ciò può verificarsi se utilizzi EMR versioni di Amazon precedenti alla EMR release 5.19 di Amazon o se stai scrivendo file su Amazon S3 con formati come ORC e. CSV Questi formati non sono supportati dal committer ottimizzato per EMRFS S3. Per un elenco completo dei requisiti per l'utilizzo del committer ottimizzato per EMRFS S3, vedi Requisiti per il committer ottimizzato per S3. EMRFS

EMRFSla scrittura diretta viene in genere utilizzata quando il committer EMRFS ottimizzato per S3 non è supportato, ad esempio quando si scrive quanto segue:

EMRFSla scrittura diretta non viene utilizzata nei seguenti scenari:

  • Quando il committer EMRFS ottimizzato per S3 è abilitato. Vedi Requisiti per il committer ottimizzato per S3 EMRFS.

  • Quando si scrivono partizioni dinamiche con partitionOverwriteMode set to dynamic.

  • Quando si scrive su percorsi di partizione personalizzati, ad esempio percorsi che non sono conformi alla convenzione del percorso della partizione predefinita di Hive.

  • Quando si utilizzano file system diversi daEMRFS, ad esempio scrivendo HDFS o utilizzando il file system S3A.

Per determinare se la tua applicazione utilizza la scrittura diretta in Amazon EMR 5.14.0 o versioni successive, abilita la registrazione INFO Spark. Se una riga di registro contenente il testo «Direct Write:ENABLED" è presente nei log dei driver Spark o nei log del contenitore Spark Executor, l'applicazione Spark ha scritto utilizzando la scrittura diretta.

Per impostazione predefinita, l'esecuzione speculativa è attivata OFF su Amazon. EMRclusters Ti consigliamo di non attivare l'esecuzione speculativa se entrambe queste condizioni sono vere:

  • Stai scrivendo dati su Amazon S3.

  • I dati vengono scritti in un formato diverso da Apache Parquet o in formato Apache Parquet che non utilizza il committer ottimizzato per S3. EMRFS

Se attivi l'esecuzione speculativa di Spark e scrivi dati su Amazon S3 utilizzando la scrittura EMRFS diretta, potresti riscontrare una perdita intermittente dei dati. Quando si scrivono dati o si scrivono dati in Parquet utilizzando il committer EMRFS ottimizzato per S3, Amazon EMR non utilizza la scrittura diretta e questo problema non si verifica. HDFS

Se devi scrivere dati in formati che utilizzano la scrittura EMRFS diretta da Spark ad Amazon S3 e l'esecuzione speculativa, ti consigliamo di scrivere HDFS e poi trasferire i file di output su Amazon S3 utilizzando S3DistCP.