Comportamiento y opciones de almacenamiento de instancias en Amazon EMR - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comportamiento y opciones de almacenamiento de instancias en Amazon EMR

Descripción general

El almacén de instancias y el almacenamiento de volúmenes de Amazon EBS se utilizan para los datos de HDFS, así como para los búferes, cachés, datos de pruebas y otro contenido temporal que algunas aplicaciones pueden “volcar” en el sistema de archivos local.

Amazon EBS funciona de forma diferente en Amazon EMR que en las instancias normales de Amazon EC2 . Los volúmenes de Amazon EBS asociados a clústeres de Amazon EMR son efímeros: los volúmenes se eliminan al terminar el clúster y las instancias (por ejemplo, al reducir grupos de instancias), por lo que no debe esperar que los datos persistan. Aunque los datos son efímeros, es posible que los datos en HDFS se puedan replicar en función del número y de la especialización de los nodos del clúster. Al agregar volúmenes de almacenamiento de Amazon EBS, estos se montan como volúmenes adicionales. No forman parte del volumen raíz. YARN está configurado para utilizar todos los volúmenes adicionales, pero usted es responsable de asignar los volúmenes adicionales como almacenamiento local (por ejemplo, para archivos de registro locales).

Consideraciones

Tenga en cuenta estas consideraciones adicionales cuando utilice Amazon EBS con clústeres de EMR:

  • No puede realizar una instantánea de un volumen de Amazon EBS y posteriormente restaurarlo en Amazon EMR. Para crear configuraciones personalizadas reutilizables, utilice una AMI personalizada (disponible en Amazon EMR versión 5.7.0 y posteriores). Para obtener más información, consulte Uso de una AMI personalizada para ofrecer más flexibilidad a la configuración del clúster de Amazon EMR.

  • Solo se admite un volumen de dispositivo raíz cifrado de Amazon EBS cuando se utiliza una AMI personalizada. Para obtener más información, consulte Creación de una AMI personalizada con un volumen de dispositivo raíz de Amazon EBS cifrado.

  • Si aplica etiquetas con la API de Amazon EMR, dichas operaciones se aplicarán a volúmenes de EBS.

  • Existe un límite de 25 volúmenes por instancia.

  • Los volúmenes de Amazon EBS en los nodos principales no pueden ser inferiores a 5 GB.

  • Amazon EBS tiene un límite fijo de 2500 volúmenes de EBS por solicitud de lanzamiento de instancia. Este límite también se aplica a Amazon EMR en EC2 los clústeres. Le recomendamos que lance clústeres con el número total de volúmenes de EBS dentro de este límite y, a continuación, escale verticalmente el clúster de forma manual o con el escalado administrado por Amazon EMR, según sea necesario. Para obtener más información sobre el límite de volumen de EBS, consulte Cuotas de servicio.

Almacenamiento predeterminado de Amazon EBS para instancias

Para EC2 las instancias que tienen almacenamiento exclusivo para EBS, Amazon EMR asigna los volúmenes de almacenamiento gp2 o gp3 de Amazon EBS a las instancias. Al crear un clúster con la versión 5.22.0 y posteriores de Amazon EMR, la cantidad predeterminada de almacenamiento de Amazon EBS aumenta en función del tamaño de la instancia.

Dividimos el aumento del almacenamiento en varios volúmenes. Esto ofrece un mayor rendimiento de IOPS y, a su vez, un mejor rendimiento para algunas cargas de trabajo estandarizadas. Si desea utilizar una configuración diferente de almacenamiento para instancias de Amazon EBS, puede especificarla al crear un clúster de EMR o agregar nodos a un clúster existente. Puede utilizar los volúmenes gp2 o gp3 de Amazon EBS como volúmenes raíz y agregar volúmenes gp2 o gp3 como volúmenes adicionales. Para obtener más información, consulte Especificación de volúmenes de almacenamiento adicionales de EBS.

En la siguiente tabla se identifica el número predeterminado de volúmenes de almacenamiento gp2 de Amazon EBS, los tamaños y los tamaños totales por tipo de instancia. Para obtener información sobre los volúmenes gp2 en comparación con los gp3, consulte Comparación de los tipos de volúmenes gp2 y gp3 de Amazon EBS.

Volúmenes de almacenamiento gp2 de Amazon EBS predeterminados y tamaño por tipo de instancia para la versión 5.22.0 y posteriores de Amazon EMR
Tamaño de instancia Número de volúmenes Tamaño del volumen (GiB) Tamaño total (GiB)

*.large

1

32

32

*.xlarge

2

32

64

*.2xlarge

4

32

128

*.4xlarge

4

64

256

*.8xlarge

4

128

512

9xlarge

4

144

576

*.10xlarge

4

160

640

*.12xlarge

4

192

768

*.16xlarge

4

256

1024

*.18xlarge

4

288

1152

*.24xlarge

4

384

1536

Volumen raíz de Amazon EBS predeterminado para las instancias

Con las versiones 6.15 y posteriores de Amazon EMR, Amazon EMR conecta automáticamente una SSD de uso general (gp3) de Amazon EBS como dispositivo raíz para mejorar el rendimiento. AMIs Con versiones anteriores, Amazon EMR adjunta el volumen SSD de uso general (gp2) de EBS como dispositivo raíz.

6.15 y posteriores 6.14 y anteriores
Tipo de volumen raíz predeterminado
  • gp3

  • gp2

Tamaño predeterminado
  • 15 GiB

  • (configurable)

  • 6.10 y posteriores = 15 GiB

  • 6.9 y anteriores = 10 GiB

  • (configurable)

IOPS predeterminadas
  • 3 000

  • (configurable)

Rendimiento predeterminado
  • 125 MiB/s

  • (configurable)

Para obtener información sobre cómo personalizar el volumen del dispositivo raíz de Amazon EBS, consulte Especificación de volúmenes de almacenamiento adicionales de EBS.

Especificación de volúmenes de almacenamiento adicionales de EBS

Al configurar los tipos de instancia en Amazon EMR, puede especificar volúmenes de EBS adicionales, lo que agrega capacidad más allá del almacén de instancias (en caso de incluirse) y el volumen de EBS predeterminado. Amazon EBS ofrece los siguientes tipos de volúmenes: uso general (SSD), de IOPS aprovisionadas (SSD), de rendimiento optimizado (HDD), en frío (HDD) y magnéticos. Se diferencian en las características de rendimiento y en el precio, por lo que puede personalizar su almacenamiento en función de las necesidades empresariales y de análisis de sus aplicaciones. Por ejemplo, algunas aplicaciones pueden tener la necesidad de volcar contenido en el disco, mientras que otras pueden trabajar de forma segura en la memoria o con Amazon S3.

Solo puede asociar volúmenes de Amazon EBS a instancias durante el tiempo de inicio del clúster y cuando agrega un grupo de instancias de nodos de tarea adicional. Si una instancia en un clúster de Amazon EMR presenta errores, tanto la instancia como los volúmenes de Amazon EBS asociados se sustituirán con volúmenes nuevos. Por lo tanto, si separa manualmente un volumen de Amazon EBS, Amazon EMR lo trata como un error y sustituye tanto los almacenamientos de la instancia (si procede) como los almacenes de volumen.

Amazon EMR no le permite modificar el tipo de volumen de gp2 a gp3 para un clúster de EMR existente. Para utilizar gp3 en sus cargas de trabajo, lance un nuevo clúster de EMR. Además, no se recomienda actualizar el rendimiento y las IOPS de un clúster que esté en uso o que se esté aprovisionando, ya que Amazon EMR utiliza los valores de rendimiento y de IOPS que se especifican en el momento de lanzar el clúster para cualquier instancia nueva que agrega durante el escalado vertical del clúster. Para obtener más información, consulte Comparación de los tipos de volúmenes gp2 y gp3 de Amazon EBS y Selección de las IOPS y el rendimiento al migrar a tipos de volúmenes de Amazon EBS de gp3.

importante

Para utilizar un volumen gp3 con su clúster de EMR, lance un nuevo clúster.