Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Ejecución de trabajos desde la consola de EMR Studio
Puede enviar ejecuciones de trabajos a aplicaciones EMR sin servidor y ver los trabajos desde la consola de EMR Studio. Para crear –o ir hasta– la aplicación EMR sin servidor en EMR Studio, siga las instrucciones de Introducción a la consola.
Enviar un trabajo
En la página Enviar trabajo, puede enviar un trabajo a una aplicación EMR sin servidor de la siguiente manera.
- Spark
-
-
En el campo Nombre, introduzca un nombre para la ejecución del trabajo.
-
En el campo Rol del tiempo de ejecución, introduzca el nombre del rol de IAM que la aplicación EMR sin servidor puede asumir para la ejecución del trabajo. Para obtener más información acerca de los roles de tiempo de ejecución, consulte Roles en tiempo de ejecución de trabajo para Amazon EMR sin servidor.
-
En el campo Ubicación del script, introduzca la ubicación de Amazon S3 del script o el JAR que desee ejecutar. Para los trabajos de Spark, el script puede ser un archivo Python (.py
) o un archivo JAR (.jar
).
-
Si la ubicación del script es un archivo JAR, introduzca el nombre de la clase que es el punto de entrada del trabajo en el campo Clase principal.
-
(Opcional) Introduzca los valores en el resto de los campos.
-
Argumentos del script: introduzca cualquier argumento que desee pasar a su script JAR o Python principal. El código lee estos parámetros. Separe cada argumento del conjunto con una coma.
-
Propiedades de Spark: expanda la sección de propiedades de Spark e introduzca cualquier parámetro de configuración de Spark en ese campo.
Si especifica los tamaños del controlador y del ejecutor de Spark, debes tener en cuenta la sobrecarga de memoria. Especifique los valores de sobrecarga de memoria en las propiedades spark.driver.memoryOverhead
y spark.executor.memoryOverhead
. La sobrecarga de memoria tiene un valor predeterminado del 10 % de la memoria del contenedor, con un mínimo de 384 MB. La memoria del ejecutor y la sobrecarga de memoria juntas no pueden superar la memoria de trabajo. Por ejemplo, la spark.executor.memory
máxima en un trabajador de 30 GB debe ser de 27 GB.
-
Configuración del trabajo: especifique cualquier configuración de trabajo en este campo. Puede usar estas configuraciones del trabajo para anular las configuraciones predeterminadas de las aplicaciones.
-
Ajustes adicionales: active o desactive el catálogo de datos de Glue de AWS como metaalmacén y modifique los ajustes del registro de la aplicación. Para obtener más información sobre las configuraciones del metaalmacén, consulte Configuración de metaalmacenes para EMR sin servidor. Para obtener más información sobre las opciones de registro de aplicaciones, consulte Almacenamiento de registros.
-
Etiquetas: asigne etiquetas personalizadas a la aplicación.
-
Seleccione Enviar el trabajo.
- Hive
-
-
En el campo Nombre, introduzca un nombre para la ejecución del trabajo.
-
En el campo Rol del tiempo de ejecución, introduzca el nombre del rol de IAM que la aplicación EMR sin servidor puede asumir para la ejecución del trabajo.
-
En el campo Ubicación del script, introduzca la ubicación de Amazon S3 del script o el JAR que desee ejecutar. Para los trabajos de Hive, el script debe ser un archivo Hive (.sql
).
-
(Opcional) Introduzca los valores en el resto de los campos.
-
Ubicación del script de inicialización: introduzca la ubicación del script que inicializa las tablas antes de que se ejecute el script de Hive.
-
Propiedades de Spark: expanda la sección de propiedades de Hive e introduzca cualquier parámetro de configuración de Hive en ese campo.
-
Configuración del trabajo: especifique cualquier configuración del trabajo. Puede usar estas configuraciones del trabajo para anular las configuraciones predeterminadas de las aplicaciones. Para los trabajos de Hive, hive.exec.scratchdir
y hive.metastore.warehouse.dir
son propiedades obligatorias en la configuración del hive-site
.
{
"applicationConfiguration": [
{
"classification": "hive-site",
"configurations": [],
"properties": {
"hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET
/hive/scratch",
"hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET
/hive/warehouse"
}
}
],
"monitoringConfiguration": {}
}
-
Ajustes adicionales: active o desactive el catálogo de datos de AWS Glue como metaalmacén y modifique la configuración del registro de la aplicación. Para obtener más información sobre las configuraciones del metaalmacén, consulte Configuración de metaalmacenes para EMR sin servidor. Para obtener más información sobre las opciones de registro de aplicaciones, consulte Almacenamiento de registros.
-
Etiquetas: asigne cualquier etiqueta personalizada a la aplicación.
-
Seleccione Enviar el trabajo.
Vista de las ejecuciones de trabajo
En la pestaña Ejecuciones de trabajos de la página de detalles de una aplicación, puede ver las ejecuciones de trabajos y realizar las siguientes acciones para las ejecuciones de trabajos.
Cancelar trabajo: para cancelar una ejecución de trabajo que esté en el estado RUNNING
, elija esta opción. Para obtener más información sobre las transiciones de ejecución de trabajos, consulte Estados de ejecuciones de trabajos.
Clonar un trabajo: para clonar una ejecución de trabajo anterior y volver a enviarlo, seleccione esta opción.