Avantages de l'utilisation d'Amazon EMR - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Avantages de l'utilisation d'Amazon EMR

L'utilisation d'Amazon présente de nombreux avantagesEMR. Il s'agit notamment de la flexibilité offerte AWS et des économies réalisées par rapport à la création de vos propres ressources sur site. Cette section fournit une présentation de ces avantages et des liens vers des informations supplémentaires qui vous aideront à approfondir le sujet.

Économies sur les coûts

EMRLes tarifs Amazon dépendent du type d'instance et du nombre d'EC2instances Amazon que vous déployez, ainsi que de la région dans laquelle vous lancez votre cluster. La tarification à la demande offre des taux horaires faibles, mais vous pouvez réduire encore le coût en achetant des instances réservées ou en faisant une offre sur des instances Spot. Les instances Spot permettent des économies importantes et peuvent même parfois ne représenter qu'un dixième de la tarification à la demande.

Note

Si vous utilisez Amazon S3, Amazon Kinesis ou DynamoDB avec votre EMR cluster, des frais supplémentaires sont facturés séparément de votre utilisation d'Amazon. EMR

Note

Lorsque vous configurez un EMR cluster Amazon dans un sous-réseau privé, nous vous recommandons de configurer également des VPCpoints de terminaison pour Amazon S3. Si votre EMR cluster se trouve dans un sous-réseau privé sans VPC points de terminaison pour Amazon S3, vous devrez payer des frais de NAT passerelle supplémentaires associés au trafic S3, car le trafic entre votre EMR cluster et S3 ne restera pas dans le vôtre. VPC

Pour plus d'informations sur les options de tarification et les détails, consultez EMRles tarifs Amazon.

AWS intégration

Amazon EMR s'intègre à d'autres AWS services pour fournir des capacités et des fonctionnalités liées au réseau, au stockage, à la sécurité, etc., pour votre cluster. La liste suivante fournit plusieurs exemples de cette intégration :

  • Amazon EC2 pour les instances qui constituent les nœuds du cluster

  • Amazon Virtual Private Cloud (AmazonVPC) pour configurer le réseau virtuel sur lequel vous lancez vos instances

  • Amazon S3 pour stocker les données d'entrée et sortie ;

  • Amazon va CloudWatch surveiller les performances du cluster et configurer les alarmes

  • AWS Identity and Access Management (IAM) pour configurer les autorisations

  • AWS CloudTrail pour auditer les demandes adressées au service

  • AWS Data Pipeline pour planifier et démarrer vos clusters

  • AWS Lake Formation pour découvrir, cataloguer et sécuriser les données dans un lac de données Amazon S3

Déploiement

Votre EMR cluster est composé d'EC2instances qui exécutent le travail que vous soumettez à votre cluster. Lorsque vous lancez votre cluster, Amazon EMR configure les instances avec les applications que vous choisissez, telles qu'Apache Hadoop ou Spark. Choisissez le type et la taille d'instance qui conviennent le mieux aux besoins de traitement pour votre cluster : traitement par lots, requêtes à faible latence, streaming de données ou stockage de données volumineuses. Pour plus d'informations sur les types d'instances disponibles pour AmazonEMR, consultezConfiguration du matériel et du réseau du EMR cluster Amazon.

Amazon EMR propose différentes méthodes pour configurer les logiciels sur votre cluster. Par exemple, vous pouvez installer une EMR version d'Amazon avec un ensemble d'applications choisi qui peut inclure des frameworks polyvalents, tels que Hadoop, et des applications, telles que Hive, Pig ou Spark. Vous pouvez également installer l'une des nombreuses distributions MapR. Amazon EMR utilise Amazon Linux. Vous pouvez donc également installer des logiciels sur votre cluster manuellement à l'aide du gestionnaire de packages yum ou à partir de la source. Pour de plus amples informations, veuillez consulter Configurer les applications lorsque vous lancez votre EMR cluster Amazon.

Capacité de mise à l'échelle et flexibilité

Amazon EMR offre la flexibilité nécessaire pour faire évoluer votre cluster à la hausse ou à la baisse en fonction de l'évolution de vos besoins informatiques. Vous pouvez redimensionner votre cluster pour ajouter des instances pour les charges de travail des périodes de pointe et supprimer des instances pour contrôler les coûts en dehors des périodes de pointe. Pour de plus amples informations, veuillez consulter Redimensionner manuellement un cluster Amazon EMR en cours d'exécution.

Amazon offre EMR également la possibilité d'exécuter plusieurs groupes d'instances afin que vous puissiez utiliser des instances à la demande dans un groupe pour une puissance de traitement garantie, ainsi que des instances ponctuelles dans un autre groupe pour terminer vos tâches plus rapidement et à moindre coût. Vous pouvez également combiner différents types d'instance pour tirer profit de meilleurs prix pour un type d'instance Spot par rapport à un autre. Pour de plus amples informations, veuillez consulter Quand faut-il utiliser des instances Spot ?.

En outre, Amazon EMR offre la possibilité d'utiliser plusieurs systèmes de fichiers pour vos données d'entrée, de sortie et intermédiaires. Par exemple, vous pouvez choisir le système de fichiers distribué Hadoop (HDFS) qui s'exécute sur les nœuds principaux et principaux de votre cluster pour traiter les données que vous n'avez pas besoin de stocker au-delà du cycle de vie de votre cluster. Vous pouvez choisir le système de EMR fichiers (EMRFS) pour utiliser Amazon S3 comme couche de données pour les applications exécutées sur votre cluster afin de séparer le calcul et le stockage, et de conserver les données en dehors du cycle de vie de votre cluster. EMRFSoffre l'avantage supplémentaire de vous permettre d'augmenter ou de diminuer indépendamment vos besoins de calcul et de stockage. Vous pouvez ajuster vos besoins informatiques en redimensionnant votre cluster et vous pouvez ajuster vos besoins de stockage en utilisant Amazon S3. Pour de plus amples informations, veuillez consulter Utilisation des systèmes de stockage et de fichiers avec Amazon EMR.

Fiabilité

Amazon EMR surveille les nœuds de votre cluster et arrête et remplace automatiquement une instance en cas de panne.

Amazon EMR propose des options de configuration qui contrôlent si votre cluster est résilié automatiquement ou manuellement. Si vous configurez votre cluster pour qu'il s'arrête automatiquement, il est arrêté une fois toutes les étapes terminées. On parle alors de cluster transitoire. Toutefois, vous pouvez configurer le cluster pour qu'il continue à s'exécuter après la fin du traitement, afin que vous puissiez choisir de l'arrêter manuellement lorsque vous n'en avez plus besoin. Ou, vous pouvez créer un cluster, interagir directement avec les applications installées, puis arrêter manuellement le cluster lorsque vous n'en avez plus besoin. Les clusters de ces exemples sont appelés clusters de longue durée.

De plus, vous pouvez configurer une protection contre l'arrêt pour empêcher les instances de votre cluster d'être mises hors service en raison d'erreurs ou de problèmes au cours du traitement. Lorsque la protection de la résiliation est activée, vous pouvez récupérer les données à partir des instances avant leur résiliation. Les paramètres par défaut de ces options varient selon que vous lancez votre cluster à l'aide de la consoleCLI, ouAPI. Pour de plus amples informations, veuillez consulter Utiliser la protection contre la résiliation pour protéger vos EMR clusters Amazon contre les arrêts accidentels.

Sécurité

Amazon EMR s'appuie sur d'autres AWS services, tels qu'AmazonVPC, IAM et sur des fonctionnalités telles que les paires de EC2 clés Amazon, pour vous aider à sécuriser vos clusters et vos données.

IAM

Amazon EMR s'intègre à IAM pour gérer les autorisations. Vous définissez les autorisations à l'aide de IAM politiques que vous associez à un utilisateur ou à un IAM groupe. Les autorisations que vous définissez dans la politique déterminent les actions que les utilisateurs ou les membres du groupe peuvent effectuer et les ressources auxquelles ils peuvent accéder. Pour de plus amples informations, veuillez consulter Comment Amazon EMR travaille avec IAM.

En outre, Amazon EMR utilise IAM des rôles pour le EMR service Amazon lui-même et le profil d'EC2instance pour les instances. Ces rôles autorisent le service et les instances à accéder à d'autres AWS services en votre nom. Il existe un rôle par défaut pour le EMR service Amazon et un rôle par défaut pour le profil d'EC2instance. Les rôles par défaut utilisent des politiques AWS gérées, qui sont créées automatiquement pour vous la première fois que vous lancez un EMR cluster depuis la console et que vous choisissez les autorisations par défaut. Vous pouvez également créer les IAM rôles par défaut à partir du AWS CLI. Si vous souhaitez plutôt gérer les autorisations AWS, vous pouvez choisir des rôles personnalisés pour le profil de service et d'instance. Pour de plus amples informations, veuillez consulter Configurer les rôles IAM de service pour les EMR autorisations Amazon relatives aux AWS services et aux ressources.

Groupes de sécurité

Amazon EMR utilise des groupes de sécurité pour contrôler le trafic entrant et sortant vers vos EC2 instances. Lorsque vous lancez votre cluster, Amazon EMR utilise un groupe de sécurité pour votre instance principale et un groupe de sécurité partagé par vos core/task instances. Amazon EMR configures the security group rules to ensure communication among the instances in the cluster. Optionally, you can configure additional security groups and assign them to your primary and core/task instances pour des règles plus avancées. Pour de plus amples informations, veuillez consulter Contrôlez le trafic réseau avec des groupes de sécurité pour votre EMR cluster Amazon.

Chiffrement

Amazon EMR prend en charge le chiffrement optionnel côté serveur et côté client d'Amazon S3 EMRFS afin de protéger les données que vous stockez dans Amazon S3. Avec le chiffrement côté serveur, Amazon S3 chiffre vos données une fois que vous les avez chargées vers le serveur.

Avec le chiffrement côté client, le processus de chiffrement et de déchiffrement a lieu dans le EMRFS client de votre cluster. EMR Vous gérez la clé racine pour le chiffrement côté client à l'aide du AWS Key Management Service (AWS KMS) ou de votre propre système de gestion des clés.

Pour plus d'informations, consultez Spécifier le chiffrement Amazon S3 à l'aide EMRFS des propriétés.

Amazon VPC

Amazon EMR prend en charge le lancement de clusters dans un cloud privé virtuel (VPC) sur AmazonVPC. A VPC est un réseau virtuel isolé AWS qui permet de contrôler les aspects avancés de la configuration et de l'accès au réseau. Pour de plus amples informations, veuillez consulter Configurer le réseau dans un VPC pour Amazon EMR.

AWS CloudTrail

Amazon EMR s'intègre CloudTrail pour enregistrer les informations relatives aux demandes effectuées par ou au nom de votre AWS compte. Avec ces informations, vous pouvez obtenir un suivi des personnes qui accèdent à votre cluster, des heures où cela se produit et de l'adresse IP à partir de laquelle elles effectuent la demande. Pour de plus amples informations, veuillez consulter Enregistrement des AWS EMR API appels à l'aide de AWS CloudTrail.

Paires EC2 de clés Amazon

Vous pouvez surveiller votre cluster et interagir avec lui en créant une connexion sécurisée entre votre ordinateur distant et le nœud primaire. Vous utilisez le protocole réseau Secure Shell (SSH) pour cette connexion ou Kerberos pour l'authentification. Si vous l'utilisezSSH, une paire de EC2 clés Amazon est requise. Pour de plus amples informations, veuillez consulter Utiliser une paire de EC2 clés pour les SSH informations d'identification d'Amazon EMR.

Surveillance

Vous pouvez utiliser les interfaces de EMR gestion et les fichiers journaux Amazon pour résoudre les problèmes de cluster, tels que les défaillances ou les erreurs. Amazon EMR permet d'archiver des fichiers journaux dans Amazon S3 afin que vous puissiez stocker les journaux et résoudre les problèmes même après la fin de votre cluster. Amazon fournit EMR également un outil de débogage facultatif dans la EMR console Amazon pour parcourir les fichiers journaux en fonction des étapes, des tâches et des tâches. Pour de plus amples informations, veuillez consulter Configurer la journalisation et le débogage du EMR cluster Amazon.

Amazon EMR s'intègre CloudWatch pour suivre les indicateurs de performance du cluster et les tâches au sein du cluster. Vous pouvez configurer des alarmes sur la base de diverses métriques, telles que le fait que le cluster soit ou non inactif ou le pourcentage de stockage utilisé. Pour de plus amples informations, veuillez consulter Surveiller EMR les métriques d'Amazon avec CloudWatch.

Interfaces de gestion

Vous pouvez interagir avec Amazon de plusieurs manières EMR :

  • Console : interface utilisateur graphique qui permet de lancer et gérer des clusters. Elle vous permet de remplir des formulaires Web afin de préciser les détails relatifs aux clusters à lancer, de consulter les informations relatives aux clusters en cours, de déboguer et d'arrêter les clusters. L'utilisation de la console est le moyen le plus simple de démarrer avec Amazon EMR ; aucune connaissance en programmation n'est requise. La console est disponible en ligne à https://console.aws.amazon.com/elasticmapreduce/domicile.

  • AWS Command Line Interface (AWS CLI) — Une application client que vous exécutez sur votre machine locale pour vous connecter à Amazon EMR et créer et gérer des clusters. AWS CLI Il contient un ensemble de commandes riche en fonctionnalités spécifiques à Amazon. EMR Elle vous permet d'écrire des scripts pour automatiser le lancement et la gestion des clusters. Si vous préférez travailler à partir d'une ligne de commande, l'utilisation de AWS CLI est la meilleure option. Pour plus d'informations, consultez Amazon EMR dans le AWS CLI Command Reference.

  • Kit de développement logiciel (SDK) : SDKs fournit des fonctions qui font appel EMR à Amazon pour créer et gérer des clusters. Ils vous permettent d'écrire des applications pour automatiser la création et la gestion des clusters. L'utilisation de SDK est la meilleure option pour étendre ou personnaliser les fonctionnalités d'AmazonEMR. Amazon EMR est actuellement disponible dans les versions suivantes SDKs : Go, Java,. NET(C# et VB. NET), Node.jsPHP, Python et Ruby. Pour plus d'informations à ce sujetSDKs, consultez Outils pour AWS et EMRexemples de code et bibliothèques Amazon.

  • Service Web API : interface de bas niveau que vous pouvez utiliser pour appeler directement le service Web en utilisantJSON. L'utilisation de API est la meilleure option pour créer une personnalisation SDK qui appelle AmazonEMR. Pour plus d'informations, consultez le Amazon EMR API Reference.