Ejecución de trabajos desde la consola de EMR Studio - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución de trabajos desde la consola de EMR Studio

Puede enviar las ejecuciones de tareas a aplicaciones EMR sin servidor y ver las tareas desde la consola de EMR Studio. Para crear una aplicación EMR sin servidor o acceder a ella en la consola de EMR Studio, sigue las instrucciones de Cómo empezar desde la consola.

Enviar un trabajo

En la página Enviar trabajo, puedes enviar un trabajo a una aplicación EMR sin servidor de la siguiente manera.

Spark
  1. En el campo Nombre, introduzca un nombre para la ejecución del trabajo.

  2. En el campo Función de ejecución, introduzca el nombre de la IAM función que la aplicación EMR sin servidor puede asumir para la ejecución de la tarea. Para obtener más información sobre las funciones en tiempo de ejecución, consulteFunciones de tiempo de ejecución de trabajos para Amazon EMR Serverless.

  3. En el campo Ubicación del script, introduzca la ubicación de Amazon S3 del script o JAR que desee ejecutar. Para los trabajos de Spark, el script puede ser un archivo Python (.py) o un archivo JAR (.jar).

  4. Si la ubicación del script es un JAR archivo, introduce el nombre de la clase que es el punto de entrada del trabajo en el campo Clase principal.

  5. (Opcional) Introduzca valores para los campos restantes.

    • Argumentos del script: introduzca los argumentos que desee pasar a su script principal JAR o de Python. El código lee estos parámetros. Separe cada argumento de la matriz con una coma.

    • Propiedades de Spark: expande la sección de propiedades de Spark e introduce cualquier parámetro de configuración de Spark en este campo.

      nota

      Si especificas los tamaños del controlador y del ejecutor de Spark, debes tener en cuenta la sobrecarga de memoria. Especifique los valores de sobrecarga de memoria en las propiedades spark.driver.memoryOverhead yspark.executor.memoryOverhead. La sobrecarga de memoria tiene un valor predeterminado del 10% de la memoria del contenedor, con un mínimo de 384 MB. La memoria ejecutora y la sobrecarga de memoria juntas no pueden superar la memoria de trabajo. Por ejemplo, el máximo de un spark.executor.memory dispositivo de trabajo de 30 GB debe ser de 27 GB.

    • Configuración de trabajo: especifique cualquier configuración de trabajo en este campo. Puede usar estas configuraciones de trabajo para anular las configuraciones predeterminadas de las aplicaciones.

    • Ajustes adicionales: activa o desactiva la AWS Glue Data Catalog como un metaalmacén y modifica la configuración del registro de la aplicación. Para obtener más información sobre las configuraciones del metaalmacén, consulte. Configuración de Metastore Para obtener más información sobre las opciones de registro de aplicaciones, consulteAlmacenar registros.

    • Etiquetas: asigne etiquetas personalizadas a la aplicación.

  6. Seleccione Enviar el trabajo.

Hive
  1. En el campo Nombre, introduzca un nombre para la ejecución del trabajo.

  2. En el campo Función de ejecución, introduzca el nombre de la IAM función que la aplicación EMR sin servidor puede asumir para la ejecución de la tarea.

  3. En el campo Ubicación del script, introduzca la ubicación de Amazon S3 del script o JAR que desee ejecutar. Para los trabajos de Hive, el script debe ser un archivo Hive (.sql).

  4. (Opcional) Introduzca valores para los campos restantes.

    • Ubicación del script de inicialización: introduzca la ubicación del script que inicializa las tablas antes de que se ejecute el script de Hive.

    • Propiedades de la colmena: amplíe la sección de propiedades de la colmena e introduzca los parámetros de configuración de la colmena en este campo.

    • Configuración de trabajo: especifique cualquier configuración de trabajo. Puede utilizar estas configuraciones de trabajo para anular las configuraciones predeterminadas de las aplicaciones. Para los trabajos de Hive, hive.exec.scratchdir y hive.metastore.warehouse.dir son propiedades obligatorias en la hive-site configuración.

      { "applicationConfiguration": [ { "classification": "hive-site", "configurations": [], "properties": { "hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET/hive/scratch", "hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET/hive/warehouse" } } ], "monitoringConfiguration": {} }
    • Ajustes adicionales: active o desactive el AWS Glue Data Catalog como un metaalmacén y modifica la configuración del registro de la aplicación. Para obtener más información sobre las configuraciones del metaalmacén, consulte. Configuración de Metastore Para obtener más información sobre las opciones de registro de aplicaciones, consulteAlmacenar registros.

    • Etiquetas: asigne cualquier etiqueta personalizada a la aplicación.

  5. Seleccione Enviar el trabajo.

Vista de las ejecuciones de trabajo

En la pestaña Ejecuciones de tareas de la página de detalles de una aplicación, puede ver las ejecuciones de tareas y realizar las siguientes acciones para las ejecuciones de tareas.

Cancelar trabajo: para cancelar una ejecución de trabajo que está en ese RUNNING estado, elija esta opción. Para obtener más información sobre las transiciones de ejecución de tareas, consulteEstados de ejecuciones de trabajos.

Clonar un trabajo: para clonar un trabajo anterior ejecutado y volver a enviarlo, seleccione esta opción.