Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Configurar el hardware y las redes del EMR clúster de Amazon
Una consideración importante a la hora de crear un EMR clúster de Amazon es la forma en que se configuran EC2 las instancias de Amazon y las opciones de red. En este capítulo, se abordan las siguientes opciones y, a continuación, se combinan todas ellas con las directrices y prácticas recomendadas.
-
Tipos de nodos: EC2 las instancias de Amazon de un EMR clúster se organizan en tipos de nodos. Existen tres tipos: el nodo principal, el nodo básico y los nodos de tarea. Cada tipo de nodo realiza un conjunto de roles definidos por las aplicaciones distribuidas que se instalan en el clúster. Durante un trabajo de Hadoop MapReduce o Spark, por ejemplo, los componentes de los nodos principales y de tareas procesan los datos, transfieren la salida a Amazon S3 oHDFS, y devuelven los metadatos de estado al nodo principal. Para un clúster de un solo nodo, todos los componentes se ejecutan en el nodo principal. Para obtener más información, consulte Comprenda los tipos de nodos en AmazonEMR: nodos principales, principales y de tareas.
-
EC2instancias: cuando creas un clúster, eliges las EC2 instancias de Amazon en las que se ejecutará cada tipo de nodo. El tipo de EC2 instancia determina el perfil de procesamiento y almacenamiento del nodo. La elección de la EC2 instancia de Amazon para sus nodos es importante porque determina el perfil de rendimiento de los tipos de nodos individuales de su clúster. Para obtener más información, consulte Configurar los tipos de EC2 instancias de Amazon para utilizarlos con Amazon EMR.
-
Redes: puedes lanzar tu EMR clúster de Amazon en una VPC mediante una subred pública, una subred privada o una subred compartida. Su configuración de red determina cómo los clientes y los servicios pueden conectarse a los clústeres para realizar su trabajo, cómo se conectan los clústeres a los almacenes de datos y otros recursos de AWS , y las opciones de las que dispone para controlar el tráfico en esas conexiones. Para obtener más información, consulte Configurar redes en un VPC para Amazon EMR.
-
Agrupación de instancias: el conjunto de EC2 instancias que aloja cada tipo de nodo se denomina flota de instancias o grupo de instancias uniforme. La configuración de agrupación de instancias es una elección que se toma al crear un clúster. Esta opción determina cómo puede agregar nodos al clúster mientras está en ejecución. La configuración se aplica a todos los tipos de nodos. No se puede cambiar más adelante. Para obtener más información, consulte Crea un EMR clúster de Amazon con flotas de instancias o grupos de instancias uniformes.
nota
La configuración de las flotas de instancias solo está disponible en las EMR versiones 4.8.0 y posteriores de Amazon, excepto las 5.0.0 y 5.0.3.