Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Comprenda los tipos de nodos en AmazonEMR: nodos principales, principales y de tareas
Utilice esta sección para entender cómo Amazon EMR utiliza cada uno de estos tipos de nodos y como base para la planificación de la capacidad del clúster.
Nodo principal
El nodo principal administra el clúster y normalmente ejecuta los componentes principales de las aplicaciones distribuidas. Por ejemplo, el nodo principal ejecuta el YARN ResourceManager servicio para administrar los recursos de las aplicaciones. También ejecuta el HDFS NameNode servicio, realiza un seguimiento del estado de los trabajos enviados al clúster y supervisa el estado de los grupos de instancias.
Para supervisar el progreso de un clúster e interactuar directamente con las aplicaciones, puedes conectarte al nodo principal SSH como usuario de Hadoop. Para obtener más información, consulte Conéctese al nodo principal EMR del clúster de Amazon mediante SSH. La conexión con el nodo principal le permite acceder directamente a los directorios y los archivos, como los archivos de registro de Hadoop. Para obtener más información, consulte Ver los archivos de EMR registro de Amazon. También puede ver las interfaces de usuario que publican las aplicaciones como sitios web que se ejecutan en el nodo principal. Para obtener más información, consulte Ver las interfaces web alojadas en los EMR clústeres de Amazon.
nota
Con Amazon EMR 5.23.0 y versiones posteriores, puede lanzar un clúster con tres nodos principales para admitir una alta disponibilidad de aplicaciones como YARN Resource Manager, Spark HDFS NameNode, Hive y Ganglia. El nodo principal ya no es un posible punto único de error con esta característica. Si uno de los nodos principales falla, Amazon conmuta EMR automáticamente por error a un nodo principal en espera y reemplaza el nodo principal fallido por uno nuevo con la misma configuración y acciones de arranque. Para más información, consulte Planificación y configuración de nodos principales.
Nodos básicos
Los nodos básicos los administra el nodo principal. Los nodos principales ejecutan el daemon del nodo de datos para coordinar el almacenamiento de datos como parte del sistema de archivos distribuido de Hadoop (). HDFS También ejecutan el daemon Task Tracker y realizan otras tareas de cálculo en paralelo en los datos que las aplicaciones instaladas requieren. Por ejemplo, un nodo principal ejecuta YARN NodeManager demonios, tareas de MapReduce Hadoop y ejecutores de Spark.
Solo hay un grupo de instancias principal o una flota de instancias por clúster, pero puede haber varios nodos ejecutándose en varias instancias de Amazon en el grupo de EC2 instancias o en la flota de instancias. Con los grupos de instancias, puedes añadir y eliminar EC2 instancias de Amazon mientras el clúster está en ejecución. También puede configurar el escalado automático para agregar instancias en función del valor de una métrica. Para obtener más información sobre cómo añadir y eliminar EC2 instancias de Amazon con la configuración de grupos de instancias, consultaUtilice el escalado de EMR clústeres de Amazon para adaptarse a las cargas de trabajo cambiantes.
Con las flotas de instancias, puede agregar y eliminar instancias de forma eficaz modificando las capacidades de destino de la flota de instancias para las opciones bajo demanda y de spot según corresponda. Para obtener más información acerca de las capacidades de destino, consulte Opciones de flota de instancias.
aviso
Si se eliminan los HDFS daemons de un nodo principal en ejecución o se cierran los nodos principales, se corre el riesgo de perder datos. Tenga cuidado al configurar nodos secundarios que utilizan instancias de spot. Para obtener más información, consulte ¿Cuándo se deben utilizar las instancias de spot?.
Nodos de tarea
Puede utilizar los nodos de tareas para añadir potencia y realizar tareas de cálculo en paralelo con los datos, como las tareas de Hadoop y los ejecutores de MapReduce Spark. Los nodos de tareas no ejecutan el daemon Data Node ni almacenan datos en él. HDFS Al igual que con los nodos principales, puede añadir nodos de tareas a un clúster añadiendo EC2 instancias de Amazon a un grupo de instancias uniforme existente o modificando las capacidades objetivo de una flota de instancias de tareas.
Con la configuración de grupo de instancias uniforme, puede tener hasta un total de 48 grupos de instancias de tarea. La posibilidad de añadir grupos de instancias de esta manera te permite combinar tipos de EC2 instancias de Amazon y opciones de precios, como instancias bajo demanda e instancias puntuales. Esto le ofrece flexibilidad para responder a los requisitos de carga de trabajo de forma rentable.
Con la configuración de flota de instancias, la capacidad de combinar tipos de instancia y opciones de compra está integrada, por lo que solo hay una flota de instancias de tarea.
Dado que las instancias puntuales se utilizan con frecuencia para ejecutar nodos de tareas, Amazon EMR tiene una funcionalidad predeterminada para programar los YARN trabajos, de modo que los trabajos en ejecución no fallen cuando se cierren los nodos de tareas que se ejecutan en las instancias puntuales. Amazon lo EMR hace al permitir que los procesos maestros de la aplicación se ejecuten solo en los nodos principales. El proceso maestro de la aplicación controla los trabajos en ejecución y debe mantenerse activo durante toda la vida del trabajo.
Para ello, la EMR versión 5.19.0 y las posteriores de Amazon utilizan la función integrada de etiquetas de YARN nodosyarn-site
y de capacity-scheduler
configuración están configuradas de forma predeterminada para que el programador de capacidad y el YARN planificador justo aprovechen las etiquetas de los nodos. Amazon etiqueta EMR automáticamente los nodos principales con la CORE
etiqueta y establece las propiedades para que los maestros de aplicaciones se programen solo en los nodos con la CORE etiqueta. La modificación manual de las propiedades relacionadas en las clasificaciones de configuración de yarn-site y capacity scheduler, o directamente en XML los archivos asociados, podría interrumpir esta función o modificarla.
A partir de la serie de versiones EMR 6.x de Amazon, la función de etiquetas de YARN nodos está deshabilitada de forma predeterminada. De forma predeterminada, los procesos principales de la aplicación se pueden ejecutar tanto en nodos básicos como en nodos de tarea. Puede activar la función de etiquetas de YARN nodos configurando las siguientes propiedades:
-
yarn.node-labels.enabled: true
-
yarn.node-labels.am.default-node-label-expression: 'CORE'
A partir de la serie de versiones EMR 7.x de Amazon, Amazon EMR asigna etiquetas de YARN nodo a las instancias según su tipo de mercado, como On-Demand o Spot. Puede habilitar las etiquetas de nodos y restringir los procesos de las aplicaciones a ON_ DEMAND configurando las siguientes propiedades:
yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'ON_DEMAND'
Si utilizas Amazon EMR 7.0 o una versión superior, puedes restringir el proceso de solicitud a los nodos con la CODE
etiqueta mediante la siguiente configuración:
yarn.node-labels.enabled: true yarn.node-labels.am.default-node-label-expression: 'CORE'
Para las EMR versiones 7.2 y posteriores de Amazon, si su clúster utiliza el escalado gestionado con etiquetas de nodo, Amazon EMR intentará escalar el clúster en función del proceso de aplicación y de la demanda del ejecutor de forma independiente.
Por ejemplo, si utiliza la versión 7.2 o superior EMR de Amazon y restringe el proceso de solicitud a ON_DEMAND
los nodos, el escalado gestionado amplía ON_DEMAND
los nodos si aumenta la demanda del proceso de aplicación. De igual forma, si restringe el proceso de aplicación a los nodos CORE
, el escalado administrado escala verticalmente los nodos CORE
si aumenta la demanda del proceso de aplicación.
Para obtener información sobre propiedades específicas, consulte EMRConfiguración de Amazon para evitar un error en el trabajo debido a la finalización de la instancia puntual del nodo de tarea.