Opzioni e comportamento di storage delle istanze in Amazon EMR - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Opzioni e comportamento di storage delle istanze in Amazon EMR

Panoramica

Instance Store e Amazon EBS Volume Storage vengono utilizzati per HDFS i dati e per i buffer, le cache, gli scratch data e altri contenuti temporanei che alcune applicazioni potrebbero «riversare» nel file system locale.

Amazon EBS funziona in modo diverso all'interno EMR di Amazon rispetto alle normali EC2 istanze Amazon. EBSI volumi Amazon collegati ai EMR cluster Amazon sono temporanei: i volumi vengono eliminati alla chiusura del cluster e dell'istanza (ad esempio, quando si riducono i gruppi di istanze), quindi non dovresti aspettarti che i dati persistano. Sebbene i dati siano effimeri, è possibile che i dati in HDFS essi contenuti vengano replicati a seconda del numero e della specializzazione dei nodi del cluster. Quando aggiungi volumi EBS di storage Amazon, questi vengono montati come volumi aggiuntivi. Non fanno parte del volume di avvio. YARNè configurato per utilizzare tutti i volumi aggiuntivi, ma sei responsabile dell'allocazione dei volumi aggiuntivi come storage locale (per i file di log locali, ad esempio).

Considerazioni

Tieni a mente queste considerazioni aggiuntive quando usi Amazon EBS con i EMR cluster:

  • Non puoi creare uno snapshot di un EBS volume Amazon e poi ripristinarlo all'interno di AmazonEMR. Per creare configurazioni personalizzate riutilizzabili, usa una configurazione personalizzata AMI (disponibile nella EMR versione Amazon 5.7.0 e successive). Per ulteriori informazioni, consulta Utilizzo di una soluzione personalizzata AMI per fornire maggiore flessibilità per la configurazione dei EMR cluster Amazon.

  • Un volume di dispositivo EBS root Amazon crittografato è supportato solo quando si utilizza un volume di dispositivo root Amazon personalizzatoAMI. Per ulteriori informazioni, consulta Creazione di un volume di dispositivo EBS root Amazon personalizzato AMI con un volume crittografato.

  • Se applichi i tag utilizzando Amazon EMRAPI, tali operazioni vengono applicate ai EBS volumi.

  • Esiste un limite di 25 volumi per istanza.

  • I EBS volumi Amazon sui nodi core non possono essere inferiori a 5 GB.

  • Amazon EBS ha un limite fisso di 2.500 EBS volumi per richiesta di avvio di istanza. Questo limite si applica anche ad Amazon EMR sui EC2 cluster. Ti consigliamo di avviare cluster con il numero totale di EBS volumi entro questo limite, quindi ridimensionare manualmente il cluster o con la scalabilità EMR gestita da Amazon, se necessario. Per ulteriori informazioni sul limite di EBS volume, consulta la sezione Quote di servizio.

EBSStorage Amazon predefinito per le istanze

Per EC2 le istanze con EBS solo storage, Amazon EMR alloca i volumi di storage EBS Amazon gp2 o gp3 alle istanze. Quando crei un cluster con le EMR versioni di Amazon 5.22.0 e successive, la quantità di EBS storage Amazon predefinita aumenta rispetto alla dimensione dell'istanza.

Suddividiamo l'eventuale spazio di archiviazione aggiuntivo su più volumi. Ciò consente di aumentare IOPS le prestazioni e, a sua volta, di aumentare le prestazioni per alcuni carichi di lavoro standardizzati. Se desideri utilizzare una configurazione di storage di EBS istanze Amazon diversa, puoi specificarla quando crei un EMR cluster o aggiungi nodi a un cluster esistente. Puoi usare i volumi Amazon EBS gp2 o gp3 come volumi root e aggiungere volumi gp2 o gp3 come volumi aggiuntivi. Per ulteriori informazioni, consulta Specificazione di volumi di EBS storage aggiuntivi.

La tabella seguente identifica il numero predefinito di volumi di storage Amazon EBS gp2, dimensioni e dimensioni totali per tipo di istanza. Per informazioni sui volumi gp2 rispetto ai volumi gp3, consulta Confronto tra i tipi di EBS volume Amazon gp2 e gp3.

Volumi di storage Amazon EBS gp2 predefiniti e dimensioni per tipo di istanza per Amazon EMR 5.22.0 e versioni successive
Dimensioni istanza Numero di volumi Dimensioni del volume (GiB) Dimensione totale (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

10xlarge

4

160

640

12xlarge

4

192

768

*.16xlarge

4

256

1024

18xlarge

4

288

1152

24xlarge

4

384

1536

Volume EBS root Amazon predefinito per le istanze

Con le EMR versioni 6.15 e successive di Amazon, Amazon collega EMR automaticamente un Amazon EBS General Purpose SSD (gp3) come dispositivo root per migliorare le prestazioni. AMIs Nelle versioni precedenti, Amazon utilizza EMR EBS General Purpose SSD (gp2) come dispositivo root.

6.15 e successivi 6.14 e precedenti
Tipo di volume root predefinito
  • gp3

  • gp2

Dimensioni predefinite
  • 15 GiB

  • (configurabile)

  • 6.10 e successivi = 15 GiB

  • 6.9 e precedenti = 10 GiB

  • (configurabile)

Impostazione predefinita IOPS
  • 3000

  • (configurabile)

Velocità di trasmissione effettiva predefinita
  • 125 MiB/s

  • (configurabile)

Per informazioni su come personalizzare il volume del dispositivo EBS root Amazon, consultaSpecificazione di volumi di EBS storage aggiuntivi.

Specificazione di volumi di EBS storage aggiuntivi

Quando configuri i tipi di istanza in AmazonEMR, puoi specificare EBS volumi aggiuntivi per aggiungere capacità oltre all'instance store (se presente) e al EBS volume predefinito. Amazon EBS fornisce i seguenti tipi di volume: General Purpose (SSD), Provisioned IOPS (SSD), Throughput Optimized (HDD), Cold (HDD) e Magnetic. Si differenziano per caratteristiche di prestazioni e prezzo, perciò puoi personalizzare il tuo spazio di archiviazione in base alle esigenze analitiche e aziendali delle applicazioni. Ad esempio, per alcune applicazioni potrebbe essere necessario riversare su disco, mentre altre possono funzionare in modo sicuro in memoria o con Amazon S3.

Puoi collegare EBS i volumi Amazon alle istanze solo al momento dell'avvio del cluster e quando aggiungi un gruppo di istanze Task Node aggiuntivo. Se un'istanza in un EMR cluster Amazon si guasta, sia l'istanza che EBS i volumi Amazon collegati vengono sostituiti con nuovi volumi. Di conseguenza, se scolleghi manualmente un EBS volume Amazon, Amazon lo EMR considera un errore e sostituisce sia lo storage di istanze (se applicabile) che gli archivi di volumi.

Amazon EMR non consente di modificare il tipo di volume da gp2 a gp3 per un cluster esistente. EMR Per utilizzare gp3 per i tuoi carichi di lavoro, avvia un nuovo cluster. EMR Inoltre, non è consigliabile aggiornare la velocità effettiva e IOPS su un cluster in uso o in fase di provisioning, poiché Amazon EMR utilizza la velocità effettiva e IOPS i valori specificati al momento dell'avvio del cluster per ogni nuova istanza aggiunta durante la scalabilità del cluster. Per ulteriori informazioni, consulta Confronto tra i tipi di EBS volume Amazon gp2 e gp3 e Selezione IOPS e velocità effettiva durante la migrazione a tipi di volume Amazon gp3 EBS.

Importante

Per utilizzare un volume gp3 con il tuo EMR cluster, devi avviare un nuovo cluster.