HDFSconfigurazione - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HDFSconfigurazione

La tabella seguente descrive i parametri predefiniti di Hadoop Distributed File System (HDFS) e le relative impostazioni. Questi valori possono essere modificati utilizzando la classificazione di configurazione hdfs-site. Per ulteriori informazioni, consulta Configurazione delle applicazioni.

avvertimento
  1. L'impostazione dfs.replication su 1 nei cluster con meno di quattro nodi può causare la perdita di HDFS dati in caso di guasto di un singolo nodo. Se il tuo cluster dispone HDFS di storage, ti consigliamo di configurarlo con almeno quattro nodi principali per i carichi di lavoro di produzione per evitare la perdita di dati.

  2. Amazon non EMR consentirà ai cluster di scalare i nodi principali sottostantidfs.replication. Ad esempio, se dfs.replication = 2, il numero minimo di nodi principali è 2.

  3. Quando utilizzi il dimensionamento gestito, il dimensionamento automatico o scegli di dimensionare manualmente il cluster, ti consigliamo di impostare dfs.replication su 2 o su un valore superiore.

Parametro Definizione Valore predefinito
dfs.block.size La dimensione dei HDFS blocchi. Quando si opera su dati archiviati inHDFS, la dimensione di divisione è generalmente la dimensione di un HDFS blocco. Un numero maggiore garantisce una minore granularità delle attività, ma anche una minore sollecitazione del cluster NameNode. 134217728 (128 MB)
dfs.replication Il numero di copie di ogni blocco da conservare per una maggiore durata. Amazon EMR imposta questo valore in base al numero di nodi principali di cui viene fornito il cluster. Modifica il valore in base alle tue esigenze. Per sovrascrivere il valore di default, è possibile usare la classificazione hdfs-site.

1 per cluster sottoposti a provisioning con meno di quattro nodi principali

2 per cluster sottoposti a provisioning con meno di dieci nodi principali

3 per tutti gli altri cluster