As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Opções e comportamento de armazenamento de instâncias na Amazon EMR
Visão geral
O armazenamento de instâncias e o armazenamento de EBS volume da Amazon são usados para HDFS dados e para buffers, caches, dados temporários e outros conteúdos temporários que alguns aplicativos podem “espalhar” para o sistema de arquivos local.
A Amazon EBS funciona de forma diferente na Amazon EMR do que com EC2 instâncias regulares da Amazon. EBSOs volumes da Amazon anexados aos EMR clusters da Amazon são efêmeros: os volumes são excluídos após o encerramento do cluster e da instância (por exemplo, ao reduzir grupos de instâncias), portanto, você não deve esperar que os dados persistam. Embora os dados sejam efêmeros, é possível que os dados de entrada HDFS possam ser replicados dependendo do número e da especialização dos nós no cluster. Quando você adiciona volumes EBS de armazenamento da Amazon, eles são montados como volumes adicionais. Eles não fazem parte do volume de inicialização. YARNestá configurado para usar todos os volumes adicionais, mas você é responsável por alocar os volumes adicionais como armazenamento local (para arquivos de log locais, por exemplo).
Considerações
Lembre-se dessas considerações adicionais ao usar a Amazon EBS com EMR clusters:
-
Você não pode capturar um EBS volume da Amazon e depois restaurá-lo na AmazonEMR. Para criar configurações personalizadas reutilizáveis, use uma personalizada AMI (disponível na Amazon EMR versão 5.7.0 e posterior). Para obter mais informações, consulte Usando um personalizado AMI para fornecer mais flexibilidade para a configuração de EMR clusters da Amazon.
-
Um volume de dispositivo EBS raiz criptografado da Amazon é suportado somente quando se usa um volume personalizadoAMI. Para obter mais informações, consulte Criação de um volume personalizado AMI com um dispositivo EBS raiz criptografado da Amazon.
-
Se você aplicar tags usando a Amazon EMRAPI, essas operações serão aplicadas aos EBS volumes.
-
Existe um limite de 25 volumes por instância.
-
Os EBS volumes da Amazon nos nós principais não podem ser inferiores a 5 GB.
-
EBSA Amazon tem um limite fixo de 2.500 EBS volumes por solicitação de inicialização de instância. Esse limite também se aplica à Amazon EMR em EC2 clusters. Recomendamos que você inicie clusters com o número total de EBS volumes dentro desse limite e, em seguida, escale manualmente o cluster ou use a escalabilidade EMR gerenciada pela Amazon, conforme necessário. Para saber mais sobre o limite de EBS volume, consulte Cotas de serviço.
EBSArmazenamento padrão da Amazon para instâncias
Para EC2 instâncias que têm EBS somente armazenamento, a Amazon EMR aloca volumes de armazenamento EBS Amazon gp2 ou gp3 para instâncias. Quando você cria um cluster com as EMR versões 5.22.0 e superiores da Amazon, a quantidade padrão de EBS armazenamento da Amazon aumenta em relação ao tamanho da instância.
Dividimos qualquer aumento de armazenamento em vários volumes. Isso aumenta o IOPS desempenho e, por sua vez, aumenta o desempenho de algumas cargas de trabalho padronizadas. Se você quiser usar uma configuração diferente de armazenamento de EBS instâncias da Amazon, você pode especificar isso ao criar um EMR cluster ou adicionar nós a um cluster existente. Você pode usar volumes EBS gp2 ou gp3 da Amazon como volumes raiz e adicionar volumes gp2 ou gp3 como volumes adicionais. Para obter mais informações, consulte Especificação de volumes adicionais EBS de armazenamento.
A tabela a seguir identifica o número padrão de volumes, tamanhos e tamanhos totais de armazenamento Amazon EBS gp2 por tipo de instância. Para obter informações sobre volumes gp2 comparados aos gp3, consulte Comparando os tipos de EBS volume gp2 e gp3 da Amazon.
Tamanho da instância | Número de volumes | Tamanho do volume (GiB) | Tamanho total (GiB) |
---|---|---|---|
*.large |
1 |
32 |
32 |
*.xlarge |
2 |
32 |
64 |
*.2xlarge |
4 |
32 |
128 |
*.4xlarge |
4 |
64 |
256 |
*.8xlarge |
4 |
128 |
512 |
*.9xlarge |
4 |
144 |
576 |
*.10xlarge |
4 |
160 |
640 |
*.12xlarge |
4 |
192 |
768 |
*.16xlarge |
4 |
256 |
1024 |
*.18xlarge |
4 |
288 |
1152 |
*.24xlarge |
4 |
384 |
1536 |
Volume EBS raiz padrão da Amazon para instâncias
Com as EMR versões 6.15 e superiores da Amazon, a Amazon anexa EMR automaticamente um Amazon EBS General Purpose SSD (gp3) como dispositivo raiz para melhorar o desempenho. AMIs Nas versões anteriores, a Amazon EMR atribui o EBS General Purpose SSD (gp2) como dispositivo raiz.
6.15 e superior | 6.14 e inferior | |
---|---|---|
Tipo de volume raiz padrão |
|
|
Tamanho padrão |
|
|
Padrão IOPS |
|
|
Throughput padrão |
|
Para obter informações sobre como personalizar o volume do dispositivo EBS raiz da Amazon, consulteEspecificação de volumes adicionais EBS de armazenamento.
Especificação de volumes adicionais EBS de armazenamento
Ao configurar tipos de instância na AmazonEMR, você pode especificar EBS volumes adicionais para adicionar capacidade além do armazenamento de instâncias (se houver) e do EBS volume padrão. A Amazon EBS fornece os seguintes tipos de volume: General Purpose (SSD), Provisioned IOPS (SSD), Throughput Optimized (HDD), Cold (HDD) e Magnetic. Eles diferem em características de performance e preço, para que você possa adaptar seu armazenamento às necessidades analíticas e comerciais das suas aplicações. Por exemplo, algumas aplicações podem precisar ser transferidas para o disco, enquanto outras podem trabalhar com segurança na memória ou usando o Amazon S3.
Você só pode anexar EBS volumes da Amazon às instâncias no momento da inicialização do cluster e ao adicionar um grupo extra de instâncias de nós de tarefas. Se uma instância em um EMR cluster da Amazon falhar, tanto a instância quanto os EBS volumes anexados da Amazon serão substituídos por novos volumes. Consequentemente, se você separar manualmente um EBS volume da Amazon, a Amazon EMR tratará isso como uma falha e substituirá o armazenamento da instância (se aplicável) e os armazenamentos de volume.
A Amazon EMR não permite que você modifique seu tipo de volume de gp2 para gp3 para um cluster existente. EMR Para usar o gp3 para suas cargas de trabalho, inicie um novo cluster. EMR Além disso, não recomendamos que você atualize a taxa de transferência IOPS em um cluster que esteja em uso ou que esteja sendo provisionado, porque a Amazon EMR usa a taxa de transferência e IOPS os valores que você especifica no momento da inicialização do cluster para qualquer nova instância adicionada durante a expansão do cluster. Para ter mais informações, consulte Comparando os tipos de EBS volume gp2 e gp3 da Amazon e Seleção IOPS e taxa de transferência ao migrar para tipos de volume gp3 da Amazon EBS.
Importante
Para usar um volume gp3 com seu EMR cluster, você deve iniciar um novo cluster.