Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Migrez les données d'un environnement Hadoop sur site vers Amazon S3 à l'aide de DistCp with AWS PrivateLink for Amazon S3
Créé par Jason Owens (AWS), Andres Cantor (AWS), Jeff Klopfenstein (), Bruno Rocha AWS Oliveira () et Samuel Schmidt () AWS AWS
Environnement : Production | Source : Hadoop | Cible : N'importe laquelle |
Type R : Replateforme | Charge de travail : Open source | Technologies : stockage et sauvegarde ; analyse |
AWSservices : Amazon S3 ; Amazon EMR |
Récapitulatif
Ce modèle montre comment migrer presque n'importe quel volume de données d'un environnement Apache Hadoop sur site vers le cloud Amazon Web Services (AWS) en utilisant l'outil open source Apache DistCp
Ce guide fournit des instructions d'utilisation DistCp pour migrer des données vers le AWS cloud. DistCp est l'outil le plus couramment utilisé, mais d'autres outils de migration sont disponibles. Par exemple, vous pouvez utiliser des AWS outils hors ligne tels que AWSSnowball ou AWSSnowmobile, ou des outils en ligne tels que AWS Storage Gateway AWS ou. AWS DataSync
Conditions préalables et limitations
Prérequis
Un AWS compte actif avec une connexion réseau privée entre votre centre de données sur site et le cloud AWS
Un utilisateur Hadoop ayant accès aux données de migration dans le système de fichiers distribué Hadoop () HDFS
AWSInterface de ligne de commande (AWSCLI), installée et configurée
Autorisations pour placer des objets dans un compartiment S3
Limites
Les limites du cloud privé virtuel (VPC) s'appliquent AWS PrivateLink à Amazon S3. Pour plus d'informations, consultez Propriétés, limites et AWS PrivateLink quotas des points de terminaison de l'interface (AWS PrivateLink documentation).
AWS PrivateLink pour Amazon S3 ne prend pas en charge les éléments suivants :
Architecture
Pile technologique source
Cluster Hadoop avec installation DistCp
Pile technologique cible
Amazon S3
Amazon VPC
Architecture cible
Le schéma montre comment l'administrateur Hadoop copie des DistCp données depuis un environnement sur site via une connexion réseau privée, telle que Direct AWS Connect, vers Amazon S3 via un point de terminaison d'interface Amazon S3.
Outils
AWSservices
AWSIdentity and Access Management (IAM) vous aide à gérer en toute sécurité l'accès à vos AWS ressources en contrôlant qui est authentifié et autorisé à les utiliser.
Amazon Simple Storage Service (Amazon S3) est un service de stockage d'objets basé sur le cloud qui vous permet de stocker, de protéger et de récupérer n'importe quel volume de données.
Amazon Virtual Private Cloud (AmazonVPC) vous aide à lancer AWS des ressources dans un réseau virtuel que vous avez défini. Ce réseau virtuel ressemble à un réseau traditionnel que vous exploiteriez dans votre propre centre de données, avec les avantages de l'utilisation de l'infrastructure évolutive deAWS.
Autres outils
Apache Hadoop DistCp
(copie distribuée) est un outil utilisé pour copier de grands inter-clusters et intra-clusters. DistCp utilise Apache MapReduce pour la distribution, la gestion des erreurs et la restauration, ainsi que pour les rapports.
Épopées
Tâche | Description | Compétences requises |
---|---|---|
Créez un point de terminaison AWS PrivateLink pour Amazon S3. |
| AWSadministrateur |
Vérifiez les points de terminaison et recherchez les DNS entrées. |
| AWSadministrateur |
Vérifiez les règles de pare-feu et les configurations de routage. | Pour vérifier que les règles de votre pare-feu sont ouvertes et que votre configuration réseau est correctement configurée, utilisez Telnet pour tester le point de terminaison sur le port 443. Par exemple :
Remarque : si vous utilisez l'entrée Regional, un test réussi montre qu'il DNS y a alternance entre les deux adresses IP que vous pouvez voir dans l'onglet Sous-réseaux pour le point de terminaison sélectionné dans la VPC console Amazon. | Administrateur réseau, AWS administrateur |
Configurez la résolution du nom. | Vous devez configurer la résolution des noms pour permettre à Hadoop d'accéder au point de terminaison de l'interface Amazon S3. Vous ne pouvez pas utiliser le nom du point de terminaison lui-même. Au lieu de cela, vous devez résoudre Choisissez l'une des options de configuration suivantes :
| AWSadministrateur |
Configurez l'authentification pour Amazon S3. | Pour vous authentifier auprès d'Amazon S3 via Hadoop, nous vous recommandons d'exporter les informations d'identification de rôle temporaires vers l'environnement Hadoop. Pour plus d'informations, consultez Authentification avec S3 (site Pour utiliser des informations d'identification temporaires, ajoutez-les à votre fichier d'informations d'identification ou exécutez les commandes suivantes pour exporter les informations d'identification vers votre environnement :
Si vous utilisez une combinaison classique de clé d'accès et de clé secrète, exécutez les commandes suivantes :
Remarque : Si vous utilisez une combinaison de clé d'accès et de clé secrète, remplacez le fournisseur d'informations d'identification dans les DistCp commandes par | AWSadministrateur |
Transférez des données en utilisant DistCp. | Pour DistCp transférer des données, exécutez les commandes suivantes :
Remarque : La AWS région du point de terminaison n'est pas automatiquement découverte lorsque vous utilisez la DistCp commande with AWS PrivateLink pour Amazon S3. Hadoop 3.3.2 et les versions ultérieures résolvent ce problème en activant l'option permettant de définir explicitement la AWS région du compartiment S3. Pour plus d'informations, consultez S3A pour ajouter l'option fs.s3a.endpoint.region pour Pour plus d'informations sur les fournisseurs S3A supplémentaires, consultez Configuration générale du client S3A
Remarque : Pour utiliser le point de terminaison de l'interface avec S3A, vous devez créer une entrée d'DNSalias pour le nom régional S3 (par exemple, Si vous rencontrez des problèmes de signature avec Amazon S3, ajoutez une option permettant d'utiliser la signature Signature Version 4 (Sigv4) :
| Ingénieur de migration, AWS administrateur |