Configuración de un EMR clúster de Amazon para que continúe o finalice tras la ejecución del paso - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Configuración de un EMR clúster de Amazon para que continúe o finalice tras la ejecución del paso

En este tema se explican las diferencias entre utilizar un clúster de ejecución prolongada y crear un clúster transitorio que se cierre después de ejecutar el último paso. También se explica cómo configurar la ejecución de pasos de un clúster.

Crear un clúster en ejecución prolongada

De forma predeterminada, los clústeres que se crean con la consola o AWS CLI son de larga duración. Los clústeres de ejecución prolongada siguen funcionando, aceptando trabajo y acumulando gastos hasta que tome medidas para cerrarlos.

Un clúster de ejecución prolongada es eficaz en las siguientes situaciones:

  • Cuando necesite consultar datos de forma interactiva o automática.

  • Cuando necesite interactuar con aplicaciones de macrodatos alojadas en el clúster de forma continua.

  • Cuando procesa periódicamente un conjunto de datos tan grande o con tanta frecuencia que resulta poco eficiente lanzar clústeres nuevos y cargar los datos cada vez.

También puede configurar la protección de terminación en un clúster de ejecución prolongada para evitar el cierre de EC2 las instancias por accidente o error. Para obtener más información, consulte Uso de la protección de rescisión para proteger tus EMR clústeres de Amazon de un cierre accidental.

nota

Amazon habilita EMR automáticamente la protección de terminación para todos los clústeres con varios nodos principales y anula cualquier configuración de ejecución de pasos que proporcione al crear el clúster. Puede deshabilitar la protección contra la terminación después de que se haya lanzado el clúster. Consulte Configuración de la protección de terminación para ejecutar clústeres. Para cerrar un clúster con varios nodos principales, primero debe modificar los atributos del clúster para deshabilitar la protección contra la terminación. Para obtener instrucciones, consulte Terminar un Amazon EMR Cluster con varios nodos principales.

Configuración de un clúster para que termine tras la ejecución de pasos

Al configurar la terminación tras la ejecución de pasos, el clúster se inicia, ejecuta las acciones de arranque y, a continuación, ejecuta los pasos que especifique. En cuanto se complete el último paso, Amazon EMR finalizará las EC2 instancias de Amazon del clúster. Los clústeres que lanzas con Amazon EMR API tienen habilitada la ejecución por pasos de forma predeterminada.

La terminación posterior a la ejecución de pasos es eficaz para los clústeres que realizan una tarea de procesamiento periódica, como un procesamiento de datos diario. La ejecución de pasos también lo ayuda a garantizar que solo se le facture el tiempo necesario para procesar sus datos. Para obtener más información acerca de los pasos, consulte Enviar trabajo a un EMR clúster de Amazon.

Console
Para activar la finalización tras la ejecución de pasos con la consola
  1. Inicia sesión en y abre la AWS Management Console EMR consola de Amazon en https://console.aws.amazon.com/emr.

  2. EMREC2En el panel de navegación de la izquierda, selecciona Clústeres y, a continuación, selecciona Crear clúster.

  3. En Pasos, seleccione Agregar paso. En el cuadro de diálogo Agregar paso, introduzca los valores en los campos adecuados. Las opciones varían según el tipo de paso. Para agregar el paso y salir del cuadro de diálogo, elija Agregar paso.

  4. En Terminación del clúster, seleccione la casilla Terminar el clúster tras completar el último paso.

  5. Elija cualquier otra opción que se aplique a su clúster.

  6. Para lanzar el clúster, elija Crear clúster.

AWS CLI
Para activar la terminación tras la ejecución de los pasos con el AWS CLI
  • Especifique el parámetro --auto-terminate cuando utilice el comando create-cluster para crear un clúster transitorio.

    El siguiente ejemplo muestra el uso del parámetro --auto-terminate. Puede escribir el siguiente comando y myKey sustituirlo por el nombre del par de EC2 claves.

    nota

    Se incluyen caracteres de continuación de línea de Linux (\) para facilitar la lectura. Se pueden eliminar o utilizar en los comandos de Linux. En Windows, elimínelos o sustitúyalos por un signo de intercalación (^).

    aws emr create-cluster --name "Test cluster" --release-label emr-7.5.0 \ --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,\ Args=[-f,s3://amzn-s3-demo-bucket/scripts/pigscript.pig,-p,\ INPUT=s3://amzn-s3-demo-bucket/inputdata/,-p,OUTPUT=s3://amzn-s3-demo-bucket/outputdata/,\ $INPUT=s3://amzn-s3-demo-bucket/inputdata/,$OUTPUT=s3://amzn-s3-demo-bucket/outputdata/] --instance-type m5.xlarge --instance-count 3 --auto-terminate
API
Para desactivar la terminación tras la ejecución escalonada con el lanzamiento de Amazon EMR API in cluster
  1. Cuando utilice la RunJobFlowacción para crear un clúster, defina la KeepJobFlowAliveWhenNoStepspropiedad enfalse.

  2. Para cambiar la configuración de terminación tras la ejecución de los pasos con el lanzamiento EMR API posterior del clúster de Amazon:

    Usa SetKeepJobFlowAliveWhenNoSteps la acción.