Lanzamiento de clústeres en una VPC con Amazon EMR
Después de tener una subred configurada para alojar clústeres de Amazon EMR, lance el clúster en dicha subred especificando el identificador de subred asociado al crear el clúster.
nota
Amazon EMR admite subredes privadas en su versión 4.2 y superiores.
Cuando se lanza el clúster, Amazon EMR agrega grupos de seguridad en función de si el clúster se lanza en subredes privadas o públicas de VPC. Todos los grupos de seguridad permiten la entrada en el puerto 8443 para comunicarse con el servicio de Amazon EMR, pero los intervalos de direcciones IP varían en subredes públicas y privadas. Amazon EMR administra todos estos grupos de seguridad y es posible que tenga que agregar direcciones IP adicionales al intervalo de AWS a lo largo del tiempo. Para obtener más información, consulte Control del tráfico de red con grupos de seguridad para su clúster de Amazon EMR.
Para administrar el clúster en una VPC, Amazon EMR asocia un dispositivo de red al nodo principal y lo administra a través de este dispositivo. Puede ver este dispositivo mediante la acción DescribeInstances
de la API de Amazon EC2. Si modifica este dispositivo de algún modo, el clúster podría fallar.
Garantía de las direcciones IP disponibles para un clúster de EMR en EC2
Para garantizar que haya disponible una subred con suficientes direcciones IP libres en el momento del lanzamiento, la selección de subredes de EC2 comprueba la disponibilidad de IP. Si el proceso de creación utiliza una subred con el número de direcciones IP necesario para lanzar los nodos básicos, principales y de tareas según sea necesario, incluso si, tras la creación inicial, solo se crean los nodos básicos del clúster. El EMR comprueba la cantidad de direcciones IP necesarias para lanzar los nodos principales y de tareas durante la creación, y calcula por separado la cantidad de direcciones IP necesarias para lanzar los nodos básicos. Amazon EMR determina automáticamente el número mínimo de instancias o nodos principales y de tareas necesarios.
importante
Si ninguna subred de la VPC tiene suficientes IP disponibles para acoger a los nodos esenciales, se devuelve un error y no se crea el clúster.
En la mayoría de los casos de implementación, hay una diferencia de tiempo entre cada lanzamiento de los nodos principales, básicos y de tareas. Además, es posible que varios clústeres compartan una subred. En estos casos, la disponibilidad de las direcciones IP puede fluctuar y, por ejemplo, los lanzamientos posteriores de nodos de tareas pueden estar limitados por las direcciones IP disponibles.