Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
La administración de un trabajo se ejecuta con AWS CLI
En este tema se explica cómo gestionar las ejecuciones de tareas con AWS Command Line Interface (AWS CLI). Aborda detalles sobre las propiedades, como los parámetros de seguridad, el controlador y varios ajustes de anulación. También incluye subtemas que abarcan diversas formas de configurar el registro.
Temas
Opciones para configurar una ejecución de trabajo
Utilice las siguientes opciones para configurar los parámetros de ejecución del trabajo:
-
--execution-role-arn
: Debe proporcionar un IAM rol que se utilice para ejecutar trabajos. Para obtener más información, consulte Uso de roles de ejecución de trabajos con Amazon EMR en EKS. -
--release-label
: Puedes implementar Amazon EMR en Amazon EKS con EMR las versiones 5.32.0 y 6.2.0 y posteriores. Amazon EMR on no EKS es compatible con las EMR versiones anteriores de Amazon. Para obtener más información, consulte Amazon EMR sobre los EKS lanzamientos. -
--job-driver
: el controlador de trabajo se utiliza para proporcionar información sobre el trabajo principal. Se trata de un campo de tipo unión en el que solo puede pasar uno de los valores del tipo de trabajo que desee ejecutar. Los tipos de trabajo admitidos son:-
Envío de trabajos de Spark: se usa para ejecutar un comando a través de spark-submit. Puedes usar este tipo de trabajo para ejecutar Scala, SparkR PySpark, SQL Spark y cualquier otro trabajo compatible a través de Spark Submit. Este tipo de trabajo tiene los siguientes parámetros:
-
Punto de entrada: esta es la referencia HCFS (sistema de archivos compatible con Hadoop) al archivo jar/py principal que deseas ejecutar.
-
EntryPointArguments - Esta es una serie de argumentos que quieres pasar a tu archivo jar/py principal. Debería manejar la lectura de estos parámetros mediante su código de punto de entrada. Cada argumento de la matriz debe estar separado con una coma. EntryPointArguments no puede contener corchetes o paréntesis, como (), {} o [].
-
SparkSubmitParameters - Estos son los parámetros de chispa adicionales que desea enviar al trabajo. Use este parámetro para anular las propiedades predeterminadas de Spark, como la memoria del controlador o el número de ejecutores, como —conf o —class. Para obtener más información, consulte Launching Applications with spark-submit
.
-
-
SQLTrabajos de Spark: se utiliza para ejecutar un archivo de SQL consulta a través de SparkSQL. Puedes usar este tipo de trabajo para ejecutar SQL trabajos de Spark. Este tipo de trabajo tiene los siguientes parámetros:
-
Punto de entrada: es la referencia HCFS (sistema de archivos compatible con Hadoop) al archivo de SQL consulta que quieres ejecutar.
Para ver una lista de parámetros de Spark adicionales que puedes usar para un trabajo de SparkSQL, consulta. Ejecutar los scripts de Spark a través del SQL StartJobRun API
-
-
-
--configuration-overrides
: puede anular las configuraciones predeterminadas de las aplicaciones suministrando un objeto de configuración. Puedes usar una sintaxis abreviada para proporcionar la configuración o puedes hacer referencia al objeto de configuración en un JSON archivo. Los objetos de configuración se componen de una clasificación, propiedades y configuraciones anidadas opcionales. Las propiedades se componen de la configuración que se desea anular en ese archivo. Puede especificar varias clasificaciones para varias aplicaciones en un único objeto. JSON Las clasificaciones de configuración disponibles varían según la versión de EMR lanzamiento de Amazon. Para obtener una lista de las clasificaciones de configuración disponibles para cada versión de AmazonEMR, consulteAmazon EMR sobre los EKS lanzamientos.Si pasa la misma configuración en una aplicación de anulación y en los parámetros de envío de Spark, prevalecerán los parámetros de envío de Spark. A continuación se muestra la lista completa de prioridades de configuración, en orden de mayor a menor.
-
Configuración proporcionada al crear
SparkSession
. -
Configuración proporcionada como parte de
sparkSubmitParameters
mediante—conf
. -
Configuración proporcionada como parte de las anulaciones de aplicaciones.
-
Configuraciones optimizadas elegidas por Amazon EMR para el lanzamiento.
-
Configuraciones de código abierto predeterminadas para la aplicación.
Para supervisar las ejecuciones de tareas mediante Amazon CloudWatch o Amazon S3, debe proporcionar los detalles de configuración de CloudWatch. Para obtener más información, consulte Configure una ejecución de trabajo para utilizar registros de Amazon S3 y Configurar una ejecución de tareas para usar Amazon CloudWatch Logs. Si el depósito o grupo de CloudWatch registros de S3 no existe, Amazon lo EMR crea antes de cargar los registros en el depósito.
-
-
Para obtener una lista adicional de las opciones de configuración de Kubernetes, consulte Propiedades de Spark en Kubernetes
. Las siguientes configuraciones de Spark no son compatibles.
-
spark.kubernetes.authenticate.driver.serviceAccountName
-
spark.kubernetes.authenticate.executor.serviceAccountName
-
spark.kubernetes.namespace
-
spark.kubernetes.driver.pod.name
-
spark.kubernetes.container.image.pullPolicy
-
spark.kubernetes.container.image
nota
Puede utilizar
spark.kubernetes.container.image
para imágenes de Docker personalizadas. Para obtener más información, consulte Personalización de imágenes de Docker para Amazon en EMR EKS.
-
Enumerar ejecuciones de trabajos
Puede ejecutar list-job-run
para mostrar los estados de las ejecuciones de los trabajos, como se muestra en el siguiente ejemplo.
aws emr-containers list-job-runs --virtual-cluster-id <cluster-id>
Describir una ejecución de trabajo
Puede ejecutar describe-job-run
para obtener más detalles sobre el trabajo, como el estado, los detalles del estado y el nombre del trabajo, tal como se muestra en el siguiente ejemplo.
aws emr-containers describe-job-run --virtual-cluster-id
cluster-id
--idjob-run-id
Cancelar una ejecución de trabajo
Puede ejecutar cancel-job-run
para cancelar los trabajos en ejecución, tal como se muestra en el siguiente ejemplo.
aws emr-containers cancel-job-run --virtual-cluster-id
cluster-id
--idjob-run-id