Lanzamiento de clústeres en una VPC con Amazon EMR - Amazon EMR

Lanzamiento de clústeres en una VPC con Amazon EMR

Después de tener una subred configurada para alojar clústeres de Amazon EMR, lance el clúster en dicha subred especificando el identificador de subred asociado al crear el clúster.

nota

Amazon EMR admite subredes privadas en su versión 4.2 y superiores.

Cuando se lanza el clúster, Amazon EMR agrega grupos de seguridad en función de si el clúster se lanza en subredes privadas o públicas de VPC. Todos los grupos de seguridad permiten la entrada en el puerto 8443 para comunicarse con el servicio de Amazon EMR, pero los intervalos de direcciones IP varían en subredes públicas y privadas. Amazon EMR administra todos estos grupos de seguridad y es posible que tenga que agregar direcciones IP adicionales al intervalo de AWS a lo largo del tiempo. Para obtener más información, consulte Control del tráfico de red con grupos de seguridad para su clúster de Amazon EMR.

Para administrar el clúster en una VPC, Amazon EMR asocia un dispositivo de red al nodo principal y lo administra a través de este dispositivo. Puede ver este dispositivo mediante la acción DescribeInstances de la API de Amazon EC2. Si modifica este dispositivo de algún modo, el clúster podría fallar.

Console
Para lanzar un clúster en una VPC utilizando la consola
  1. Inicie sesión en la AWS Management Console y abra la consola de Amazon EMR en https://console.aws.amazon.com/emr.

  2. En EMR en EC2 situado en el panel de navegación izquierdo, elija Clústeres y, a continuación, elija Crear clúster.

  3. En Redes, vaya al campo Nube privada virtual (VPC). Ingrese el nombre de la VPC o elija Buscar para seleccionar la VPC. También puede elegir Crear VPC para crear una VPC que pueda utilizar para su clúster.

  4. Elija cualquier otra opción que se aplique a su clúster.

  5. Para lanzar el clúster, elija Crear clúster.

AWS CLI
Para lanzar un clúster en una VPC utilizando la AWS CLI
nota

La AWS CLI no proporciona una forma de crear una instancia NAT automáticamente y conectarla a su subred privada. Sin embargo, para crear un punto de conexión de S3 en su subred, puede utilizar los comandos de la CLI de Amazon VPC. Utilice la consola para crear instancias NAT y lanzar clústeres en una subred privada.

Una vez que la VPC se ha configurado, puede lanzar clústeres de Amazon EMR en ella utilizando el subcomando create-cluster con el parámetro --ec2-attributes. Utilice el parámetro --ec2-attributes para especificar la subred de VPC para el clúster.

  • Para crear un clúster en una subred específica, escriba el siguiente comando, sustituya myKey por el nombre del par de claves de Amazon EC2 y sustituya 77XXXX03 por el ID de subred.

    aws emr create-cluster --name "Test cluster" --release-label emr-4.2.0 --applications Name=Hadoop Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey,SubnetId=subnet-77XXXX03 --instance-type m5.xlarge --instance-count 3

    Cuando especifica el recuento de instancias sin utilizar el parámetro --instance-groups, se lanza un nodo principal único y el resto de las instancias se lanzan como nodos básicos. Todos los nodos utilizan el tipo de instancia especificado en el comando.

    nota

    Si no ha creado con anterioridad el rol de servicio de Amazon EMR predeterminado y el perfil de instancia de EC2, escriba aws emr create-default-roles para crearlos antes de escribir el subcomando create-cluster.

Garantía de las direcciones IP disponibles para un clúster de EMR en EC2

Para garantizar que haya disponible una subred con suficientes direcciones IP libres en el momento del lanzamiento, la selección de subredes de EC2 comprueba la disponibilidad de IP. Si el proceso de creación utiliza una subred con el número de direcciones IP necesario para lanzar los nodos básicos, principales y de tareas según sea necesario, incluso si, tras la creación inicial, solo se crean los nodos básicos del clúster. El EMR comprueba la cantidad de direcciones IP necesarias para lanzar los nodos principales y de tareas durante la creación, y calcula por separado la cantidad de direcciones IP necesarias para lanzar los nodos básicos. Amazon EMR determina automáticamente el número mínimo de instancias o nodos principales y de tareas necesarios.

importante

Si ninguna subred de la VPC tiene suficientes IP disponibles para acoger a los nodos esenciales, se devuelve un error y no se crea el clúster.

En la mayoría de los casos de implementación, hay una diferencia de tiempo entre cada lanzamiento de los nodos principales, básicos y de tareas. Además, es posible que varios clústeres compartan una subred. En estos casos, la disponibilidad de las direcciones IP puede fluctuar y, por ejemplo, los lanzamientos posteriores de nodos de tareas pueden estar limitados por las direcciones IP disponibles.