¿Qué tipo de instancia debería utilizar?¿Cuándo se deben utilizar las instancias de spot?Cálculo de la capacidad de HDFS requerida de un clúster

Configuración de tipos de instancias de clúster de Amazon EMR y prácticas recomendadas para instancias de Spot

Utilice la orientación de esta sección como ayuda para determinar los tipos de instancias, las opciones de compra y la cantidad de almacenamiento para aprovisionar cada tipo de nodo en un clúster de EMR.

¿Qué tipo de instancia debería utilizar?

Hay varias formas de agregar instancias de Amazon EC2 a su clúster. El método que debe elegir depende de si utiliza la configuración de grupos de instancias o la configuración de flotas de instancias para el clúster.

Grupos de instancias
- Añada manualmente instancias del mismo tipo a los grupos de instancias de tareas y secundarias existentes.
- Añada manualmente un grupo de instancias de tareas, que pueden utilizar un tipo de instancia diferente.
- Configura el escalado automático en Amazon EMR para un grupo de instancias, añadiendo y eliminando instancias automáticamente en función del valor de una CloudWatch métrica de Amazon que especifiques. Para obtener más información, consulte Utilice el escalado de clústeres de Amazon EMR para adaptarse a las cargas de trabajo cambiantes.
Flotas de instancias
- Añadir una única flota de instancias de tarea.
- Cambie la capacidad objetivo On-Demand y las instancias puntuales para las flotas de instancias principales y de tareas existentes. Para obtener más información, consulte Planificación y configuración de flotas de instancias para su clúster de Amazon EMR.

Una forma de planificar las instancias del clúster consiste en ejecutar un clúster de prueba con un conjunto representativo de datos de ejemplo y monitorizar la utilización de los nodos del clúster. Para obtener más información, consulte Visualización y monitorización de un clúster de Amazon EMR a medida que realiza su trabajo. Otra forma consiste en calcular la capacidad de las instancias que se estén planeando y comparar dicho valor con el tamaño de los datos.

En general, el tipo de nodo principal, que asigna tareas, no requiere una instancia de EC2 con una gran potencia de procesamiento; las instancias de Amazon EC2 para el tipo de nodo básico, que procesan tareas y almacenan datos en HDFS, necesitan tanto potencia de procesamiento como capacidad de almacenamiento; las instancias de Amazon EC2 para el tipo de nodo de tarea, que no almacenan datos, solo necesitan potencia de procesamiento. Para conocer directrices sobre las instancias de Amazon EC2 disponibles y su configuración, consulte Configure tipos de instancias de Amazon EC2 para su uso con Amazon EMR.

Las siguientes directrices se aplican a la mayoría de los clústeres de Amazon EMR.

Hay un límite de vCPU para el número total de instancias de Amazon EC2 bajo demanda que ejecute en AWS una cuenta. Región de AWS Para obtener más información sobre el límite de vCPU y cómo solicitar un aumento del límite para su cuenta, consulte On-Demand Instancias en la Guía del usuario de Amazon EC2 para instancias de Linux.
Generalmente, el nodo principal no tiene grandes requisitos informáticos. Para los clústeres con una gran cantidad de nodos o para los clústeres con aplicaciones que se implementan específicamente en el nodo principal (HueJupyterHub, etc.), es posible que se requiera un nodo principal más grande que ayude a mejorar el rendimiento del clúster. Por ejemplo, considere la posibilidad de utilizar una instancia m5.xlarge para clústeres pequeños (50 nodos o menos) y aumentarla a un tipo de instancia más grande para clústeres más grandes.
Las necesidades informáticas de los nodos secundarios y de tareas dependen del tipo de procesamiento que realiza la aplicación. Muchos trabajos se pueden ejecutar en tipos de instancias de uso general, que ofrecen un rendimiento equilibrado en términos de CPU, espacio en disco y input/output. Computation-intensiveLos clústeres pueden beneficiarse de la ejecución en instancias con un alto nivel de CPU, que tienen proporcionalmente más CPU que RAM. Las aplicaciones de bases de datos y de almacenamiento en caché de memoria pueden beneficiarse de la ejecución en instancias de memoria elevada. Network-intensive y CPU-intensive aplicaciones como el análisis sintáctico, la PNL y el aprendizaje automático pueden beneficiarse de la ejecución en instancias informáticas en clúster, que proporcionan recursos de CPU proporcionalmente altos y un mayor rendimiento de la red.
Si distintas fases del clúster tienen diferentes necesidades de capacidad, puede empezar con un pequeño número de nodos secundarios y aumentar o reducir el número de nodos de tareas para satisfacer los requisitos de capacidad variable del flujo de trabajo.
La cantidad de datos que puede procesar depende de la capacidad de los nodos secundarios y del tamaño de los datos como entrada, durante el procesamiento y como salida. Los conjuntos de datos entrantes, intermedios y salientes residen en el clúster durante el procesamiento.

¿Cuándo se deben utilizar las instancias de spot?

Al lanzar un clúster en Amazon EMR, puede elegir lanzar instancias principales, básicas y de tarea en instancias de spot. Dado que cada tipo de grupo de instancias desempeña un papel diferente en el clúster, hay distintas consecuencias al lanzar cada tipo de nodo en instancias de spot. No se puede cambiar una opción de compra de instancias mientras se ejecuta un clúster. Para cambiar de instancias puntuales On-Demand a instancias puntuales o viceversa, en el caso de los nodos principal y principal, debe terminar el clúster y lanzar uno nuevo. Para los nodos de tareas, puede lanzar un nuevo grupo de instancias de tareas o una nueva flota de instancias y eliminar la anterior.

Temas

Configuración de Amazon EMR para evitar errores en los trabajos debido a la terminación de instancias de spot de los nodos de tarea
Nodo principal en una instancia de spot
Nodos básicos en instancias de spot
Nodos de tarea en instancias de spot
Configuraciones de instancias para escenarios de aplicaciones

Configuración de Amazon EMR para evitar errores en los trabajos debido a la terminación de instancias de spot de los nodos de tarea

Dado que las instancias de spot se utilizan a menudo para ejecutar nodos de tarea, Amazon EMR tiene una funcionalidad predeterminada para programar trabajos de YARN, de modo que los trabajos en ejecución no presenten errores cuando los nodos de tarea que se ejecutan en las instancias de spot se terminen. Para ello, Amazon EMR permite que los procesos maestros de la aplicación se ejecuten únicamente en los nodos principales. El proceso maestro de la aplicación controla los trabajos en ejecución y debe mantenerse activo durante toda la vida del trabajo.

La versión 5.19.0 y posteriores de Amazon EMR utilizan la característica integrada de etiquetas de nodo YARN para lograrlo. (Las versiones anteriores utilizaban una revisión de código). Las propiedades en las clasificaciones de configuración yarn-site y capacity-scheduler se ajustan de forma predeterminada para que capacity-scheduler y fair-scheduler de YARN utilicen las etiquetas de nodo. Amazon EMR etiqueta automáticamente los nodos principales con la etiqueta CORE y establece las propiedades para que los maestros de la aplicación se programen únicamente en los nodos con la etiqueta CORE. La modificación manual de las propiedades relacionadas en las clasificaciones de configuración yarn-site y capacity-scheduler o directamente en los archivos XML asociados podría interrumpir esta característica o modificar esta funcionalidad.

Amazon EMR configura las siguientes propiedades y valores de forma predeterminada. Actúe con precaución al configurar estas propiedades.

nota

A partir de la serie de versiones 6.x de Amazon EMR, la característica de etiquetas de nodo YARN está desactivada de forma predeterminada. De forma predeterminada, los procesos principales de la aplicación se pueden ejecutar tanto en nodos básicos como en nodos de tarea. Puede habilitar la función de etiquetas de nodo YARN configurando las siguientes propiedades:

yarn.node-labels.enabled: true
yarn.node-labels.am.default-node-label-expression: 'CORE'

yarn-site (yarn-site.xml) en todos los nodos
- yarn.node-labels.enabled: true
- yarn.node-labels.am.default-node-label-expression: 'CORE'
- yarn.node-labels.fs-store.root-dir: '/apps/yarn/nodelabels'
- yarn.node-labels.configuration-type: 'distributed'
yarn-site (yarn-site.xml) en los nodos principal y básicos
- yarn.nodemanager.node-labels.provider: 'config'
- yarn.nodemanager.node-labels.provider.configured-node-partition: 'CORE'
capacity-scheduler (capacity-scheduler.xml) en todos los nodos
- yarn.scheduler.capacity.root.accessible-node-labels: '*'
- yarn.scheduler.capacity.root.accessible-node-labels.CORE.capacity: 100
- yarn.scheduler.capacity.root.default.accessible-node-labels: '*'
- yarn.scheduler.capacity.root.default.accessible-node-labels.CORE.capacity: 100

Nodo principal en una instancia de spot

El nodo principal controla y dirige el clúster. Cuando se termina, el clúster finaliza, por lo que solo debe lanzar el nodo principal como una instancia de spot si está ejecutando un clúster que se acepta que termine de forma repentina. Podría ser el caso si está probando una aplicación nueva, tiene un clúster que guarda periódicamente datos en un almacén externo como Amazon S3 o está ejecutando un clúster donde el costo es más importante que garantizar que este se complete.

Cuando se lanza el grupo de instancias principales como instancia de spot, el clúster no se inicia hasta que se completa la solicitud de instancia de spot. Esto es algo que debe considerar a la hora de seleccionar el precio de spot máximo.

Solo puede agregar un nodo principal de instancias de spot al lanzar el clúster. No se puede agregar ni eliminar nodos principales de un clúster en ejecución.

Normalmente, solo se ejecutaría el nodo principal como instancia de spot si se ejecuta todo el clúster (todos los grupos de instancia) como instancias de spot.

Nodos básicos en instancias de spot

Los nodos secundarios procesan los datos y almacenan información mediante HDFS. La terminación de una instancia secundaria conlleva el riesgo de pérdida de datos. Por este motivo, solo debe ejecutar los nodos secundarios en instancias de spot cuando sea admisible la pérdida parcial de datos de HDFS.

Cuando se lanza el grupo de instancias básicas como instancias de spot, Amazon EMR espera hasta que se puedan aprovisionar todas las instancias básicas solicitadas antes de lanzar el grupo de instancias. En otras palabras, si solicitas seis instancias de Amazon EC2 y solo hay cinco disponibles al precio de spot máximo o a un precio inferior, el grupo de instancias no se lanzará. Amazon EMR sigue esperando hasta que las seis instancias de Amazon EC2 estén disponibles o hasta que termine el clúster. Puede cambiar el número de instancias de spot de un grupo de instancias secundario para añadir capacidad a un clúster en ejecución. Para obtener más información sobre cómo trabajar con los grupos de instancias y cómo funcionan las instancias de spot con las flotas de instancias, consulte Creación de un clúster de Amazon EMR con flotas de instancias o grupos de instancias uniformes.

Nodos de tarea en instancias de spot

Los nodos de tareas procesan datos pero no guardan datos persistentes en HDFS. Si se terminan porque el precio de spot ha superado su precio de spot máximo, no se pierden los datos y el efecto sobre el clúster es mínimo.

Al lanzar uno o varios grupos de instancias de tarea como instancias de spot, Amazon EMR aprovisiona tantos nodos de tarea como puede con su precio de spot máximo. Esto significa que, si solicita un grupo de instancias de tarea con seis nodos y solo hay cinco instancias de spot disponibles a su precio de spot máximo o por debajo de este, Amazon EMR lanza el grupo de instancias con cinco nodos y agrega el sexto más tarde, si es posible.

El lanzamiento de grupos de instancias de tareas como instancias de spot es una forma estratégica de ampliar la capacidad del clúster minimizando los costos. Si lanza sus grupos de instancias principales y principales como On-Demand instancias, se garantiza su capacidad durante el funcionamiento del clúster. Puede añadir instancias de tarea a los grupos de instancias de tarea según sea necesario para gestionar los picos de tráfico o acelerar el procesamiento de datos.

Puedes añadir o eliminar nodos de tareas mediante la consola o la API. AWS CLI También puede añadir grupos de tareas adicionales, pero no puede quitar un grupo de tareas después de haberlo creado.

Configuraciones de instancias para escenarios de aplicaciones

La siguiente tabla es una referencia rápida para las opciones de compra de tipos de nodos y las configuraciones que suelen ser adecuadas para los distintos escenarios de aplicaciones. Haga clic en el enlace correspondiente para ver más información sobre cada escenario.

Escenario de aplicaciones	Opción de compra del nodo principal	Opción de compra de los nodos básicos	Opción de compra de nodos de tarea
Long-running clústeres y almacenes de datos	On-Demand	On-Demand o una combinación de ejemplo y flota	Spot o combinación de flotas de instancias
Cost-driven cargas de trabajo	Spot	Spot	Spot
Data-critical cargas de trabajo	On-Demand	On-Demand	Spot o combinación de flotas de instancias
Prueba de aplicación	Spot	Spot	Spot

Existen varios escenarios en las que las instancias de spot son útiles para ejecutar un clúster de Amazon EMR.

Long-running clústeres y almacenes de datos

Si ejecuta un clúster de Amazon EMR persistente que tiene una variación predecible de capacidad informática, como un almacenamiento de datos, puede gestionar los picos de demanda a menor costo con las instancias de spot. Puede lanzar sus grupos de instancias principales y principales como On-Demand instancias para gestionar la capacidad normal y lanzar el grupo de instancias de tareas como instancias puntuales para gestionar los requisitos de carga máxima.

Cost-driven cargas de trabajo

Si está ejecutando clústeres transitorios para los que un costo inferior es más importante que el tiempo de finalización y es aceptable la pérdida parcial de trabajo, puede ejecutar todo el clúster (grupos de instancias principales, básicas y de tarea) como instancias de spot para beneficiarse de los mayores ahorros de costos.

Data-critical cargas de trabajo

Si está ejecutando un clúster para el que es más importante reducir el coste que el tiempo de finalización, pero no es aceptable perder parte del trabajo, lance los grupos de instancias principales y principales como On-Demand instancias y complételos con uno o más grupos de instancias de tareas de instancias puntuales. Al ejecutar los grupos de instancias principales y principales como On-Demand instancias, se garantiza que los datos se conserven en HDFS y que el clúster esté protegido contra la terminación debido a las fluctuaciones del mercado spot, a la vez que se ahorran costos al ejecutar los grupos de instancias de tareas como instancias puntuales.

Prueba de aplicación

Cuando se prueba una nueva aplicación para prepararla para su lanzamiento en un entorno de producción, se puede ejecutar todo el clúster (grupos de instancias principales, básicas y de tarea) como instancias de spot para reducir los costos de las pruebas.

Cálculo de la capacidad de HDFS requerida de un clúster

La cantidad de almacenamiento HDFS disponible para su clúster depende de los siguientes factores:

El número de instancias de Amazon EC2 utilizadas para los nodos básicos.
La capacidad del almacén de instancias de Amazon EC2 para el tipo de instancia que se utilice. Para más información acerca de los volúmenes de almacén de instancias, consulte Almacén de instancias de Amazon EC2 en la Guía del usuario de Amazon EC2.
El número y el tamaño de los volúmenes de Amazon EBS asociados a los nodos básicos.
Un factor de replicación, que explica cómo se almacena cada bloque de datos en HDFS con fines de redundancia. RAID-like De forma predeterminada, el factor de replicación es tres para un clúster de 10 o más nodos secundarios, dos para un clúster de 4-9 nodos secundarios y uno para un clúster de 3 nodos o menos.

Para calcular la capacidad de HDFS de un clúster, por cada nodo principal, agregue la capacidad del volumen del almacén de instancias a la capacidad de almacenamiento de Amazon EBS (si se utiliza). Multiplique el resultado por el número de nodos secundarios y, a continuación, divida el total por el factor de replicación que depende del número de nodos secundarios. Por ejemplo, un clúster con 10 nodos básicos de tipo i2.xlarge, que tiene 800 GB de almacenamiento de instancias y no tiene ningún volumen de Amazon EBS asociado, tiene un total de aproximadamente 2666 GB disponibles para HDFS (10 nodos x 800 GB ÷ 3 de factor de replicación).

Si el valor de capacidad de HDFS calculado es inferior a sus datos, puede aumentar la cantidad de almacenamiento de HDFS de las siguientes formas:

Creación de un clúster con volúmenes de Amazon EBS adicionales o adición de grupos de instancias con volúmenes de Amazon EBS asociados a un clúster existente
Agregar más nodos secundarios
Selección de un tipo de instancia de Amazon EC2 con una mayor capacidad de almacenamiento
Uso de la compresión de datos
Cambio de la configuración de Hadoop para reducir el factor de replicación

La reducción del factor de replicación se debería utilizar con precaución, ya que reduce la redundancia de los datos de HDFS y la capacidad del clúster de recuperarse frente a bloques de HDFS perdidos o dañados.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Flexibilidad de zona de disponibilidad para lanzar instancias

Configuración del registro y la depuración de un clúster de Amazon EMR