Migrez les données Hadoop vers Amazon S3 à l'aide de Migrator WANdisco LiveData - Recommandations AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Migrez les données Hadoop vers Amazon S3 à l'aide de Migrator WANdisco LiveData

Créée par Tony Velcich

Source : cluster Hadoop sur site

Cible : Amazon S3

Type R : Rehost

Environnement : Production

Technologies : DataLakes mégadonnées, cloud hybride, migration

Charge de travail : toutes les autres charges de travail

AWSservices : Amazon S3

Récapitulatif

Ce modèle décrit le processus de migration des données Apache Hadoop d'un système de fichiers distribué Hadoop () HDFS vers Amazon Simple Storage Service (Amazon S3). Il utilise WANdisco LiveData Migrator pour automatiser le processus de migration des données.

Conditions préalables et limitations

Prérequis

  • Nœud périphérique du cluster Hadoop sur lequel LiveData Migrator sera installé. Le nœud doit répondre aux exigences suivantes :

    • Spécification minimale : 4CPUs, 16 GoRAM, 100 Go de stockage.

    • Réseau de 2 Gbit/s minimum.

    • Le port 8081 est accessible sur votre nœud périphérique pour accéder à l'WANdiscointerface utilisateur.

    • Java 1.8 64 bits.

    • Bibliothèques clientes Hadoop installées sur le nœud Edge.

    • Possibilité de s'authentifier en tant que HDFSsuperutilisateur (par exemple, « hdfs »).

    • Si Kerberos est activé sur votre cluster Hadoop, un keytab valide contenant un principal adapté au HDFS superutilisateur doit être disponible sur le nœud Edge.

    • Consultez les notes de publication pour obtenir la liste des systèmes d'exploitation pris en charge.

  • Un AWS compte actif avec accès à un compartiment S3.

  • Un lien AWS Direct Connect établi entre votre cluster Hadoop sur site (en particulier le nœud périphérique) et. AWS

Versions du produit

  • LiveData Migrateur 1.8.6

  • WANdiscoInterface utilisateur (OneUI) 5.8.0

Architecture

Pile technologique source

  • Cluster Hadoop sur site

Pile technologique cible

  • Amazon S3

Architecture

Le schéma suivant montre l'architecture de la solution LiveData Migrator.

Utilisation de WANdisco LiveData Migrator pour automatiser le processus de migration des données Hadoop vers Amazon S3.

Le flux de travail se compose de quatre composants principaux pour la migration des données sur site HDFS vers Amazon S3.

  • LiveData Migrateur : automatise la migration des données depuis HDFS Amazon S3 et réside sur un nœud périphérique du cluster Hadoop.

  • HDFS— Système de fichiers distribué qui fournit un accès haut débit aux données des applications.

  • Amazon S3 — Un service de stockage d'objets qui offre évolutivité, disponibilité des données, sécurité et performances.

  • AWSDirect Connect : service qui établit une connexion réseau dédiée entre vos centres de données locaux et. AWS

Automatisation et mise à l'échelle

Vous créerez généralement plusieurs migrations afin de pouvoir sélectionner un contenu spécifique de votre système de fichiers source par chemin ou répertoire. Vous pouvez également migrer des données vers plusieurs systèmes de fichiers indépendants en même temps en définissant plusieurs ressources de migration.

Épopées

TâcheDescriptionCompétences requises

Connectez-vous à votre compte AWS.

Connectez-vous à la console AWS de gestion et ouvrez la console Amazon S3 à l'adresse https://console.aws.amazon.com/s3/.

AWSexpérience

Créez un compartiment S3.

Si vous n'avez pas encore de compartiment S3 existant à utiliser comme espace de stockage cible, choisissez l'option « Créer un compartiment » sur la console Amazon S3 et spécifiez un nom de compartiment, une AWS région et des paramètres de compartiment pour bloquer l'accès public. AWSet WANdisco nous vous recommandons d'activer les options de blocage de l'accès public pour le compartiment S3 et de configurer les politiques d'accès au compartiment et d'autorisation des utilisateurs afin de répondre aux exigences de votre organisation. Un AWS exemple est fourni sur https://docs.aws.amazon.com/AmazonS3/ example-walkthroughs-managing-access latest/dev/ -example1.html.

AWSexpérience
TâcheDescriptionCompétences requises

Téléchargez le programme d'installation de LiveData Migrator.

Téléchargez le programme d'installation de LiveData Migrator et chargez-le sur le nœud Hadoop Edge. Vous pouvez télécharger une version d'essai gratuite de LiveData Migrator sur https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9 /aws.amazon.com/Marketplace/pp/B07B8.

Administrateur Hadoop, propriétaire de l'application

Installez LiveData Migrator.

Utilisez le programme d'installation téléchargé et installez LiveData Migrator en tant que HDFS superutilisateur sur un nœud périphérique de votre cluster Hadoop. Consultez la section « Informations supplémentaires » pour les commandes d'installation.

Administrateur Hadoop, propriétaire de l'application

Vérifiez l'état de LiveData Migrator et des autres services.

Vérifiez l'état du LiveData migrateur, du migrateur Hive et de l'WANdiscointerface utilisateur à l'aide des commandes fournies dans la section « Informations supplémentaires ».

Administrateur Hadoop, propriétaire de l'application
TâcheDescriptionCompétences requises

Enregistrez votre compte LiveData Migrator.

Connectez-vous à l'WANdiscointerface utilisateur via un navigateur Web sur le port 8081 (sur le nœud Hadoop Edge) et fournissez vos informations pour l'enregistrement. Par exemple, si vous exécutez LiveData Migrator sur un hôte nommé myldmhost.example.com, ce serait : http://myldmhost.example.com:8081 URL

Propriétaire de l'application

Configurez votre HDFS stockage source.

Fournissez les détails de configuration nécessaires pour votre HDFS stockage source. Cela inclura la valeur « fs.DefaultFS » et un nom de stockage défini par l'utilisateur. Si Kerberos est activé, indiquez l'emplacement principal et l'emplacement keytab que LiveData Migrator doit utiliser. Si NameNode HA est activé sur le cluster, fournissez un chemin d'accès aux fichiers core-site.xml et hdfs-site.xml sur le nœud Edge.

Administrateur Hadoop, propriétaire de l'application

Configurez votre espace de stockage Amazon S3 cible.

Ajoutez votre stockage cible en tant que type S3a. Indiquez le nom de stockage défini par l'utilisateur et le nom du compartiment S3. Entrez « org.apache.hadoop.fs.s3a.s impleAWSCredentials Provider » pour l'option Credentials Provider et fournissez les clés d'accès et secrètes pour le compartiment S3. AWS Des propriétés S3a supplémentaires seront également nécessaires. Pour plus de détails, consultez la section « Propriétés du S3a » dans la documentation du LiveData migrateur à l'adresse https://docs.wandisco.com/live-data-migrator/ filesystem-add-s docs/command-reference/# 3a.

AWS, propriétaire de l'application
TâcheDescriptionCompétences requises

Ajoutez des exclusions (si nécessaire).

Si vous souhaitez exclure des ensembles de données spécifiques de la migration, ajoutez des exclusions pour le HDFS stockage source. Ces exclusions peuvent être basées sur la taille du fichier, les noms de fichiers (basés sur des modèles regex) et la date de modification.

Administrateur Hadoop, propriétaire de l'application
TâcheDescriptionCompétences requises

Créez et configurez la migration.

Créez une migration dans le tableau de bord de l'WANdiscointerface utilisateur. Choisissez votre source (HDFS) et votre cible (le compartiment S3). Ajoutez les nouvelles exclusions que vous avez définies à l'étape précédente. Sélectionnez l'option « Remplacer » ou « Ignorer si la taille correspond ». Créez la migration lorsque tous les champs sont remplis.

Administrateur Hadoop, propriétaire de l'application

Lancez la migration.

Sur le tableau de bord, sélectionnez la migration que vous avez créée. Cliquez pour démarrer la migration. Vous pouvez également démarrer une migration automatiquement en choisissant l'option de démarrage automatique lorsque vous créez la migration.

Propriétaire de l'application
TâcheDescriptionCompétences requises

Définissez une limite de bande passante réseau entre la source et la cible.

Dans la liste des stockages du tableau de bord, sélectionnez votre stockage source et sélectionnez « Gestion de la bande passante » dans la liste des regroupements. Désactivez l'option illimitée et définissez la limite et l'unité de bande passante maximales. Choisissez « Appliquer ».

Propriétaire de l'application, mise en réseau
TâcheDescriptionCompétences requises

Consultez les informations de migration à l'aide de l'WANdiscointerface utilisateur.

Utilisez l'WANdiscointerface utilisateur pour consulter les informations de licence, de bande passante, de stockage et de migration. L'interface utilisateur fournit également un système de notification qui vous permet de recevoir des notifications concernant les erreurs, les avertissements ou les étapes importantes de votre utilisation.

Administrateur Hadoop, propriétaire de l'application

Arrêtez, reprenez et supprimez les migrations.

Vous pouvez empêcher une migration de transférer le contenu vers sa cible en le plaçant dans l'STOPPEDétat. Les migrations arrêtées peuvent être reprises. Les migrations dans l'STOPPEDÉtat peuvent également être supprimées.

Administrateur Hadoop, propriétaire de l'application

Ressources connexes

Informations supplémentaires

Installation de LiveData Migrator

Vous pouvez utiliser les commandes suivantes pour installer LiveData Migrator, en supposant que le programme d'installation se trouve dans votre répertoire de travail :

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Vérification de l'état de LiveData Migrator et des autres services après l'installation

Utilisez les commandes suivantes pour vérifier l'état du LiveData migrateur, du migrateur Hive et de l'interface utilisateur : WANdisco

service livedata-migrator status service hivemigrator status service livedata-ui status