Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Exécution de tâches depuis la console EMR Studio
Vous pouvez envoyer des exécutions de tâches à des applications EMR sans serveur et consulter les tâches depuis la console EMR Studio. Pour créer ou accéder à votre application EMR Serverless sur la console EMR Studio, suivez les instructions de la section Mise en route depuis la console.
Envoi d’une tâche
Sur la page Soumettre une tâche, vous pouvez soumettre une tâche à une application EMR sans serveur comme suit.
- Spark
-
-
Dans le champ Nom, saisissez le nom de l'exécution de votre tâche.
-
Dans le champ Rôle d'exécution, entrez le nom du IAM rôle que votre application EMR Serverless peut assumer pour l'exécution de la tâche. Pour en savoir plus sur les rôles d'exécution, voirRôles d'exécution des tâches pour Amazon EMR Serverless.
-
Dans le champ Emplacement du script, entrez l'emplacement Amazon S3 du script ou du script JAR que vous souhaitez exécuter. Pour les tâches Spark, le script peut être un fichier Python (.py
) ou un fichier JAR (.jar
).
-
Si l'emplacement de votre script est un JAR fichier, entrez le nom de classe qui est le point d'entrée de la tâche dans le champ Classe principale.
-
(Facultatif) Entrez des valeurs pour les autres champs.
-
Arguments du script — Entrez les arguments que vous souhaitez transmettre à votre script principal JAR ou à votre script Python. Votre code lit ces paramètres. Séparez chaque argument du tableau par une virgule.
-
Propriétés de Spark — Développez la section des propriétés de Spark et entrez les paramètres de configuration de Spark dans ce champ.
Si vous spécifiez la taille du pilote et de l'exécuteur Spark, vous devez tenir compte de la surcharge mémoire. Spécifiez les valeurs de surcharge de mémoire dans les propriétés spark.driver.memoryOverhead
etspark.executor.memoryOverhead
. La surcharge mémoire a une valeur par défaut de 10 % de la mémoire du conteneur, avec un minimum de 384 Mo. La mémoire de l'exécuteur et la surcharge de mémoire réunies ne peuvent pas dépasser la mémoire de travail. Par exemple, le maximum spark.executor.memory
d'un travailleur de 30 Go doit être de 27 Go.
-
Configuration de la tâche — Spécifiez n'importe quelle configuration de tâche dans ce champ. Vous pouvez utiliser ces configurations de tâches pour remplacer les configurations par défaut des applications.
-
Paramètres supplémentaires — Activez ou désactivez AWS Glue Data Catalog en tant que métastore et modifiez les paramètres du journal des applications. Pour en savoir plus sur les configurations de métastore, consultez. Configuration du métastore pour Serverless EMR Pour en savoir plus sur les options de journalisation des applications, consultezStockage des journaux.
-
Balises — Attribuez des balises personnalisées à l'application.
-
Choisissez Soumettre une tâche.
- Hive
-
-
Dans le champ Nom, saisissez le nom de l'exécution de votre tâche.
-
Dans le champ Rôle d'exécution, entrez le nom du IAM rôle que votre application EMR Serverless peut assumer pour l'exécution de la tâche.
-
Dans le champ Emplacement du script, entrez l'emplacement Amazon S3 du script ou du script JAR que vous souhaitez exécuter. Pour les jobs Hive, le script doit être un fichier Hive (.sql
).
-
(Facultatif) Entrez des valeurs pour les autres champs.
-
Emplacement du script d'initialisation : entrez l'emplacement du script qui initialise les tables avant l'exécution du script Hive.
-
Propriétés de la ruche — Développez la section des propriétés de la ruche et entrez les paramètres de configuration de la ruche dans ce champ.
-
Configuration de la tâche : spécifiez n'importe quelle configuration de tâche. Vous pouvez utiliser ces configurations de tâches pour remplacer les configurations par défaut des applications. Pour les tâches Hive, hive.exec.scratchdir
et hive.metastore.warehouse.dir
sont des propriétés obligatoires dans la hive-site
configuration.
{
"applicationConfiguration": [
{
"classification": "hive-site",
"configurations": [],
"properties": {
"hive.exec.scratchdir": "s3://DOC-EXAMPLE_BUCKET
/hive/scratch",
"hive.metastore.warehouse.dir": "s3://DOC-EXAMPLE_BUCKET
/hive/warehouse"
}
}
],
"monitoringConfiguration": {}
}
-
Paramètres supplémentaires — Activez ou désactivez AWS Glue Data Catalog en tant que métastore et modifiez les paramètres du journal des applications. Pour en savoir plus sur les configurations de métastore, consultez. Configuration du métastore pour Serverless EMR Pour en savoir plus sur les options de journalisation des applications, consultezStockage des journaux.
-
Balises : attribuez des balises personnalisées à l'application.
-
Choisissez Soumettre une tâche.
Afficher les exécutions de tâches
Dans l'onglet Exécutions de tâches sur la page Détails d'une application, vous pouvez consulter les exécutions de tâches et effectuer les actions suivantes pour les exécutions de tâches.
Annuler la tâche : pour annuler l'exécution d'une tâche en l'RUNNING
état, choisissez cette option. Pour en savoir plus sur les transitions d'exécution de tâches, voirÉtats d'exécution de la tâche.
Cloner une tâche : pour cloner une tâche précédente et la soumettre à nouveau, choisissez cette option.