Configuration d'un EMR cluster Amazon pour qu'il continue ou s'arrête après l'exécution de l'étape - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration d'un EMR cluster Amazon pour qu'il continue ou s'arrête après l'exécution de l'étape

Cette rubrique explique les différences entre l'utilisation d'un cluster de longue durée et la création d'un cluster transitoire qui s'arrête après l'exécution de la dernière étape. Il explique également comment configurer l'exécution des étapes pour un cluster.

Création d'un cluster à long terme

Par défaut, les clusters que vous créez avec la console ou le AWS CLI sont de longue durée. Les clusters de longue durée continuent de fonctionner, d'accepter du travail et d'accumuler des frais jusqu'à ce que vous preniez des mesures pour les arrêter.

Un cluster de longue durée est efficace dans les situations suivantes :

  • Lorsque vous devez interroger des données de manière interactive ou automatique.

  • Lorsque vous devez interagir en permanence avec des applications Big Data hébergées sur le cluster.

  • Lorsque vous traitez périodiquement un jeu de données si important ou si fréquent qu'il est inefficace de lancer de nouveaux clusters et de charger les données à chaque fois.

Vous pouvez également définir une protection contre les interruptions sur un cluster de longue durée afin d'éviter de fermer des EC2 instances par accident ou par erreur. Pour de plus amples informations, veuillez consulter Utiliser la protection contre la résiliation pour protéger vos EMR clusters Amazon contre les arrêts accidentels.

Note

Amazon active EMR automatiquement la protection contre la résiliation pour tous les clusters comportant plusieurs nœuds principaux et remplace tous les paramètres d'exécution des étapes que vous fournissez lors de la création du cluster. Vous pouvez désactiver la protection contre la résiliation après le lancement du cluster. Consultez Configuration de la protection contre la résiliation pour les clusters en cours d'exécution. Pour résilier un cluster comportant plusieurs nœuds primaires, vous devez d'abord modifier les attributs du cluster afin de désactiver la protection contre la résiliation. Pour obtenir des instructions, consultez Mettre fin à un EMR cluster Amazon comportant plusieurs nœuds principaux.

Configurer un cluster pour qu'il se résilie après l'exécution de l'étape

Lorsque vous configurez la résiliation après l'exécution des étapes, le cluster démarre, exécute des actions d'amorçage, puis exécute les étapes que vous spécifiez. Dès que la dernière étape est terminée, Amazon EMR met fin aux EC2 instances Amazon du cluster. L'exécution par étapes est activée par défaut sur EMR API les clusters que vous lancez avec Amazon.

Le fait de résilier après l'exécution d'une étape est efficace pour les clusters qui effectuent une tâche de traitement périodique, telle qu'une exécution quotidienne de traitement de données. L'exécution des étapes vous permet également de vous assurer que vous n'êtes facturé que pour le temps nécessaire au traitement de vos données. Pour plus d'informations sur ces étapes, consultez Soumettre un travail à un EMR cluster Amazon.

Console
Pour activer la terminaison après l'exécution d'une étape avec la console
  1. Connectez-vous au et ouvrez AWS Management Console la EMR console Amazon à l'adresse https://console.aws.amazon.com/emr.

  2. Sous EMREC2Activé dans le volet de navigation de gauche, choisissez Clusters, puis Create cluster.

  3. Sous Étapes, choisissez Ajouter une étape. Dans la boîte de dialogue Ajouter une étape, saisissez les valeurs de champ appropriées. Les options diffèrent selon le type d'étape. Pour ajouter votre étape et quitter la boîte de dialogue, choisissez Ajouter une étape.

  4. Sous Résiliation du cluster, cochez la case Résilier le cluster une fois la dernière étape terminée.

  5. Choisissez toutes les autres options qui s'appliquent à votre cluster.

  6. Pour lancer cluster, choisissez Créer un cluster.

AWS CLI
Pour activer la terminaison après l'exécution d'une étape à l'aide du AWS CLI
  • Spécifiez le paramètre --auto-terminate quand vous utilisez la commande create-cluster pour créer un cluster transitoire.

    L'exemple suivant montre comment utiliser le paramètre --auto-terminate. Vous pouvez taper la commande suivante et remplacer myKey avec le nom de votre paire de EC2 clés.

    Note

    Les caractères de continuation de ligne Linux (\) sont inclus pour des raisons de lisibilité. Ils peuvent être supprimés ou utilisés dans les commandes Linux. Pour Windows, supprimez-les ou remplacez-les par un caret (^).

    aws emr create-cluster --name "Test cluster" --release-label emr-7.3.0 \ --applications Name=Hive Name=Pig --use-default-roles --ec2-attributes KeyName=myKey \ --steps Type=PIG,Name="Pig Program",ActionOnFailure=CONTINUE,\ Args=[-f,s3://amzn-s3-demo-bucket/scripts/pigscript.pig,-p,\ INPUT=s3://amzn-s3-demo-bucket/inputdata/,-p,OUTPUT=s3://amzn-s3-demo-bucket/outputdata/,\ $INPUT=s3://amzn-s3-demo-bucket/inputdata/,$OUTPUT=s3://amzn-s3-demo-bucket/outputdata/] --instance-type m5.xlarge --instance-count 3 --auto-terminate
API
Pour désactiver la terminaison après l'exécution des étapes avec le lancement du cluster Amazon EMR API in
  1. Lorsque vous utilisez l'RunJobFlowaction pour créer un cluster, définissez la KeepJobFlowAliveWhenNoStepspropriété surfalse.

  2. Pour modifier votre configuration de résiliation après exécution des étapes lors du lancement du cluster Amazon EMR API Post :

    Utilisez l' SetKeepJobFlowAliveWhenNoSteps action.