Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Comportamiento y opciones de almacenamiento de instancias en Amazon EMR
Información general
El almacén de instancias y el almacenamiento por EBS volumen de Amazon se utilizan para HDFS datos y para búferes, cachés, datos temporales y otro contenido temporal que algunas aplicaciones podrían «derramar» en el sistema de archivos local.
Amazon EBS funciona de forma diferente dentro EMR de Amazon que con las EC2 instancias normales de Amazon. EBSLos volúmenes de Amazon adjuntos a EMR los clústeres de Amazon son efímeros: los volúmenes se eliminan al finalizar el clúster y la instancia (por ejemplo, al reducir los grupos de instancias), por lo que no debes esperar que los datos persistan. Aunque los datos son efímeros, es posible que los datos se HDFS puedan replicar en función del número y la especialización de los nodos del clúster. Cuando añades volúmenes EBS de almacenamiento de Amazon, estos se montan como volúmenes adicionales. No forman parte del volumen raíz. YARNestá configurado para usar todos los volúmenes adicionales, pero usted es responsable de asignar los volúmenes adicionales como almacenamiento local (para los archivos de registro locales, por ejemplo).
Consideraciones
Ten en cuenta estas consideraciones adicionales cuando utilices Amazon EBS con EMR clústeres:
-
No puedes hacer una instantánea de un EBS volumen de Amazon y, a continuación, restaurarlo en AmazonEMR. Para crear configuraciones personalizadas reutilizables, usa una personalizada AMI (disponible en la EMR versión 5.7.0 y posteriores de Amazon). Para obtener más información, consulte Uso de una configuración personalizada AMI para ofrecer más flexibilidad a la configuración de EMR clústeres de Amazon.
-
Solo se admite un volumen de dispositivo EBS raíz de Amazon cifrado cuando se utiliza un volumen personalizadoAMI. Para obtener más información, consulte Crear un volumen personalizado AMI con un dispositivo EBS raíz de Amazon cifrado.
-
Si aplicas etiquetas con Amazon EMRAPI, esas operaciones se aplican a los EBS volúmenes.
-
Existe un límite de 25 volúmenes por instancia.
-
Los EBS volúmenes de Amazon en los nodos principales no pueden ser inferiores a 5 GB.
-
Amazon EBS tiene un límite fijo de 2500 EBS volúmenes por solicitud de lanzamiento de instancia. Este límite también se aplica a Amazon EMR en EC2 los clústeres. Le recomendamos que lance clústeres con el número total de EBS volúmenes dentro de este límite y, a continuación, amplíe el clúster manualmente o con el escalado EMR administrado por Amazon, según sea necesario. Para obtener más información sobre el límite de EBS volumen, consulte Cuotas de servicio.
EBSAlmacenamiento predeterminado en Amazon para las instancias
Para EC2 las instancias que EBS solo tienen almacenamiento, Amazon EMR asigna los volúmenes de almacenamiento de EBS Amazon gp2 o gp3 a las instancias. Al crear un clúster con las EMR versiones 5.22.0 y posteriores de Amazon, la cantidad predeterminada de EBS almacenamiento de Amazon aumenta en relación con el tamaño de la instancia.
Dividimos el aumento del almacenamiento en varios volúmenes. Esto aumenta el IOPS rendimiento y, a su vez, aumenta el rendimiento de algunas cargas de trabajo estandarizadas. Si quieres usar una configuración de almacenamiento de EBS instancias de Amazon diferente, puedes especificarla cuando crees un EMR clúster o añadas nodos a un clúster existente. Puede utilizar los volúmenes EBS gp2 o gp3 de Amazon como volúmenes raíz y añadir volúmenes gp2 o gp3 como volúmenes adicionales. Para obtener más información, consulte Especificar volúmenes EBS de almacenamiento adicionales.
En la siguiente tabla se identifica el número predeterminado de volúmenes de almacenamiento, tamaños y tamaños totales de Amazon EBS gp2 por tipo de instancia. Para obtener información sobre los volúmenes gp2 en comparación con los gp3, consulte Comparación de los tipos EBS de volumen de Amazon gp2 y gp3.
Tamaño de instancia | Número de volúmenes | Tamaño del volumen (GiB) | Tamaño total (GiB) |
---|---|---|---|
*.large |
1 |
32 |
32 |
*.xlarge |
2 |
32 |
64 |
*.2xlarge |
4 |
32 |
128 |
*.4xlarge |
4 |
64 |
256 |
*.8xlarge |
4 |
128 |
512 |
9xlarge |
4 |
144 |
576 |
*.10xlarge |
4 |
160 |
640 |
*.12xlarge |
4 |
192 |
768 |
*.16xlarge |
4 |
256 |
1024 |
*.18xlarge |
4 |
288 |
1152 |
*.24xlarge |
4 |
384 |
1536 |
Volumen EBS raíz de Amazon predeterminado para las instancias
Con las EMR versiones 6.15 y posteriores de Amazon, Amazon conecta EMR automáticamente un Amazon EBS General Purpose SSD (gp3) como dispositivo raíz para mejorar el rendimientoAMIs. En versiones anteriores, Amazon EMR conecta EBS General Purpose SSD (gp2) como dispositivo raíz.
6.15 y posteriores | 6.14 y anteriores | |
---|---|---|
Tipo de volumen raíz predeterminado |
|
|
Tamaño predeterminado |
|
|
Predeterminado IOPS |
|
|
Rendimiento predeterminado |
|
Para obtener información sobre cómo personalizar el volumen del dispositivo EBS raíz de Amazon, consulteEspecificar volúmenes EBS de almacenamiento adicionales.
Especificar volúmenes EBS de almacenamiento adicionales
Cuando configuras los tipos de instancias en AmazonEMR, puedes especificar EBS volúmenes adicionales para añadir capacidad más allá del almacén de instancias (si lo hay) y del EBS volumen predeterminado. Amazon EBS ofrece los siguientes tipos de volúmenes: General Purpose (SSD), Provisioned IOPS (SSD), Throughput Optimized (HDD), Cold (HDD) y Magnetic. Se diferencian en las características de rendimiento y en el precio, por lo que puede personalizar su almacenamiento en función de las necesidades empresariales y de análisis de sus aplicaciones. Por ejemplo, algunas aplicaciones pueden tener la necesidad de volcar contenido en el disco, mientras que otras pueden trabajar de forma segura en la memoria o con Amazon S3.
Solo puedes adjuntar EBS volúmenes de Amazon a las instancias en el momento del inicio del clúster y al añadir un grupo de instancias de nodos de tareas adicional. Si se produce un error en una instancia de un EMR clúster de Amazon, tanto la instancia como los EBS volúmenes de Amazon adjuntos se sustituyen por volúmenes nuevos. En consecuencia, si separas manualmente un EBS volumen de Amazon, Amazon lo EMR considerará un error y sustituirá tanto el almacenamiento de instancias (si procede) como los almacenes de volúmenes.
Amazon EMR no le permite modificar el tipo de volumen de gp2 a gp3 para un clúster existenteEMR. Para usar gp3 para sus cargas de trabajo, lance un clúster nuevo. EMR Además, no recomendamos que actualice el rendimiento en un clúster que esté IOPS en uso o que se esté aprovisionando, ya que Amazon EMR utiliza el rendimiento y IOPS los valores que especifique en el momento del lanzamiento del clúster para cualquier instancia nueva que añada durante el escalado del clúster. Para obtener más información, consulte Comparación de los tipos EBS de volumen de Amazon gp2 y gp3 y Selección IOPS y rendimiento al migrar a los tipos de volumen de Amazon EBS gp3.
importante
Para usar un volumen gp3 con su EMR clúster, debe lanzar un clúster nuevo.