Migrieren Sie Hadoop-Daten mithilfe WANdisco LiveData von Migrator zu Amazon S3 - AWS Prescriptive Guidance

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Migrieren Sie Hadoop-Daten mithilfe WANdisco LiveData von Migrator zu Amazon S3

Erstellt von Tony Velcich

Quelle: Lokaler Hadoop-Cluster

Ziel: Amazon S3

R-Typ: Rehost

Umgebung: Produktion

Technologien: DataLakes; Große Datenmengen; Hybrid-Cloud; Migration

Arbeitslast: Alle anderen Workloads

AWSDienste: Amazon S3

Übersicht

Dieses Muster beschreibt den Prozess für die Migration von Apache Hadoop-Daten von einem Hadoop Distributed File System (HDFS) zu Amazon Simple Storage Service (Amazon S3). Es verwendet WANdisco LiveData Migrator, um den Datenmigrationsprozess zu automatisieren.

Voraussetzungen und Einschränkungen

Voraussetzungen

  • Hadoop-Cluster-Edge-Knoten, auf dem LiveData Migrator installiert wird. Der Knoten sollte die folgenden Anforderungen erfüllen:

    • Mindestspezifikation: 4CPUs, 16 GBRAM, 100 GB Speicher.

    • Netzwerk mit mindestens 2 Gbit/s.

    • Port 8081, auf den auf Ihrem Edge-Knoten zugegriffen werden kann, um auf die WANdisco Benutzeroberfläche zuzugreifen.

    • Java 1.8 64-Bit.

    • Auf dem Edge-Knoten installierte Hadoop-Clientbibliotheken.

    • Möglichkeit, sich als HDFSSuperuser zu authentifizieren (z. B. „hdfs“).

    • Wenn Kerberos auf Ihrem Hadoop-Cluster aktiviert ist, muss auf dem Edge-Knoten ein gültiger Keytab verfügbar sein, der einen geeigneten Principal für den HDFS Superuser enthält.

    • Eine Liste der unterstützten Betriebssysteme finden Sie in den Versionshinweisen.

  • Ein aktives AWS Konto mit Zugriff auf einen S3-Bucket.

  • Ein AWS Direct Connect-Link, der zwischen Ihrem lokalen Hadoop-Cluster (insbesondere dem Edge-Knoten) und hergestellt wird. AWS

Produktversionen

  • LiveData Migrator 1.8.6

  • WANdiscoBenutzeroberfläche (OneUI) 5.8.0

Architektur

Quelltechnologie-Stack

  • Lokaler Hadoop-Cluster

Zieltechnologie-Stack

  • Amazon S3

Architektur

Das folgende Diagramm zeigt die Architektur der LiveData Migrator-Lösung.

Verwenden von WANdisco LiveData Migrator zur Automatisierung der Migration von Hadoop-Daten zu Amazon S3.

Der Workflow besteht aus vier Hauptkomponenten für die Datenmigration von lokalen Systemen HDFS zu Amazon S3.

  • LiveData Migrator — Automatisiert die Migration von Daten von HDFS zu Amazon S3 und befindet sich auf einem Edge-Knoten des Hadoop-Clusters.

  • HDFS— Ein verteiltes Dateisystem, das Zugriff auf Anwendungsdaten mit hohem Durchsatz ermöglicht.

  • Amazon S3 — Ein Objektspeicherservice, der Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet.

  • AWSDirect Connect — Ein Dienst, der eine dedizierte Netzwerkverbindung von Ihren lokalen Rechenzentren zu AWS herstellt.

Automatisierung und Skalierung

In der Regel erstellen Sie mehrere Migrationen, sodass Sie bestimmte Inhalte aus Ihrem Quelldateisystem nach Pfad oder Verzeichnis auswählen können. Sie können Daten auch in mehrere unabhängige Dateisysteme gleichzeitig migrieren, indem Sie mehrere Migrationsressourcen definieren.

Epen

AufgabeBeschreibungErforderliche Fähigkeiten

Melden Sie sich bei Ihrem AWS-Konto an.

Melden Sie sich bei der AWS Management Console an und öffnen Sie die Amazon S3 S3-Konsole unter https://console.aws.amazon.com/s3/.

AWSErfahrung

Erstellen Sie einen S3-Bucket.

Wenn Sie noch keinen vorhandenen S3-Bucket haben, den Sie als Zielspeicher verwenden können, wählen Sie in der Amazon S3 S3-Konsole die Option „Bucket erstellen“ und geben Sie einen Bucket-Namen, eine AWS Region und Bucket-Einstellungen für den Block Public Access an. AWSund WANdisco empfehlen Ihnen, die Optionen zum Blockieren des öffentlichen Zugriffs für den S3-Bucket zu aktivieren und die Richtlinien für den Bucket-Zugriff und die Benutzerberechtigungen so einzurichten, dass sie den Anforderungen Ihrer Organisation entsprechen. Ein AWS Beispiel finden Sie unter https://docs.aws.amazon.com/AmazonS3/ example-walkthroughs-managing-access latest/dev/ -example1.html.

AWSErfahrung
AufgabeBeschreibungErforderliche Fähigkeiten

Laden Sie das LiveData Migrator-Installationsprogramm herunter.

Laden Sie das LiveData Migrator-Installationsprogramm herunter und laden Sie es auf den Hadoop Edge-Knoten hoch. Sie können eine kostenlose Testversion von LiveData Migrator unter /aws.amazon.com/marketplace/pp/B07B8 herunterladen. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9

Hadoop-Administrator, Besitzer der Anwendung

Installieren Sie LiveData Migrator.

Verwenden Sie das heruntergeladene Installationsprogramm und installieren Sie LiveData Migrator als HDFS Superuser auf einem Edge-Knoten in Ihrem Hadoop-Cluster. Die Installationsbefehle finden Sie im Abschnitt „Zusätzliche Informationen“.

Hadoop-Administrator, Besitzer der Anwendung

Überprüfen Sie den Status von LiveData Migrator und anderen Diensten.

Überprüfen Sie den Status von LiveData Migrator, Hive Migrator und WANdisco UI mithilfe der Befehle im Abschnitt „Zusätzliche Informationen“.

Hadoop-Administrator, Anwendungsbesitzer
AufgabeBeschreibungErforderliche Fähigkeiten

Registrieren Sie Ihr LiveData Migrator-Konto.

Melden Sie sich über einen Webbrowser auf Port 8081 (auf dem Hadoop-Edge-Knoten) bei der WANdisco Benutzeroberfläche an und geben Sie Ihre Daten für die Registrierung ein. Wenn Sie LiveData Migrator beispielsweise auf einem Host namens myldmhost.example.com ausführen, wäre das: http://myldmhost.example.com:8081 URL

Besitzer der Anwendung

Konfigurieren Sie Ihren HDFS Quellspeicher.

Geben Sie die für Ihren HDFS Quellspeicher erforderlichen Konfigurationsdetails an. Dazu gehören der Wert „fs.defaultFS“ und ein benutzerdefinierter Speichername. Wenn Kerberos aktiviert ist, geben Sie den Principal- und den Keytab-Speicherort an, den Migrator verwenden soll. LiveData Wenn NameNode HA auf dem Cluster aktiviert ist, geben Sie einen Pfad zu den Dateien core-site.xml und hdfs-site.xml auf dem Edge-Knoten an.

Hadoop-Administrator, Besitzer der Anwendung

Konfigurieren Sie Ihren Amazon S3 S3-Zielspeicher.

Fügen Sie Ihren Zielspeicher als Typ S3a hinzu. Geben Sie den benutzerdefinierten Speichernamen und den S3-Bucket-Namen an. Geben Sie „org.apache.hadoop.fs.s3a.S impleAWSCredentials Provider“ für die Option Credentials Provider ein und geben Sie die Zugriffs- und Geheimschlüssel für den S3-Bucket ein. AWS Zusätzliche S3a-Eigenschaften werden ebenfalls benötigt. Einzelheiten finden Sie im Abschnitt „S3a-Eigenschaften“ in der LiveData Migrator-Dokumentation unter https://docs.wandisco.com/live-data-migrator/ docs/command-reference/# 3a. filesystem-add-s

AWS, Besitzer der Anwendung
AufgabeBeschreibungErforderliche Fähigkeiten

Fügen Sie Ausnahmen hinzu (falls erforderlich).

Wenn Sie bestimmte Datensätze von der Migration ausschließen möchten, fügen Sie Ausnahmen für den Quellspeicher hinzu. HDFS Diese Ausnahmen können auf der Dateigröße, den Dateinamen (basierend auf Regex-Mustern) und dem Änderungsdatum basieren.

Hadoop-Administrator, Besitzer der Anwendung
AufgabeBeschreibungErforderliche Fähigkeiten

Erstellen und konfigurieren Sie die Migration.

Erstellen Sie eine Migration im Dashboard der WANdisco Benutzeroberfläche. Wählen Sie Ihre Quelle (HDFS) und Ihr Ziel (den S3-Bucket). Fügen Sie neue Ausnahmen hinzu, die Sie im vorherigen Schritt definiert haben. Wählen Sie entweder die Option „Überschreiben“ oder die Option „Überspringen, wenn die Größe übereinstimmt“. Erstellen Sie die Migration, wenn alle Felder vollständig sind.

Hadoop-Administrator, Besitzer der Anwendung

Starten Sie die Migration.

Wählen Sie im Dashboard die Migration aus, die Sie erstellt haben. Klicken Sie hier, um die Migration zu starten. Sie können eine Migration auch automatisch starten, indem Sie bei der Erstellung der Migration die Option Autostart auswählen.

Besitzer der Anwendung
AufgabeBeschreibungErforderliche Fähigkeiten

Legen Sie ein Netzwerkbandbreitenlimit zwischen Quelle und Ziel fest.

Wählen Sie in der Speicherliste auf dem Dashboard Ihren Quellspeicher aus und wählen Sie in der Gruppierungsliste „Bandbreitenverwaltung“ aus. Deaktivieren Sie die Option „Unbegrenzt“ und definieren Sie das maximale Bandbreitenlimit und die maximale Bandbreiteneinheit. Wählen Sie „Anwenden“.

Inhaber der Anwendung, Netzwerk
AufgabeBeschreibungErforderliche Fähigkeiten

Zeigen Sie Migrationsinformationen über die WANdisco Benutzeroberfläche an.

Verwenden Sie die WANdisco Benutzeroberfläche, um Lizenz-, Bandbreiten-, Speicher- und Migrationsinformationen anzuzeigen. Die Benutzeroberfläche bietet auch ein Benachrichtigungssystem, sodass Sie Benachrichtigungen über Fehler, Warnungen oder wichtige Meilensteine Ihrer Nutzung erhalten können.

Hadoop-Administrator, Anwendungsbesitzer

Migrationen beenden, fortsetzen und löschen.

Sie können verhindern, dass bei einer Migration Inhalte auf das Ziel übertragen werden, indem Sie sie in den STOPPED entsprechenden Status versetzen. Gestoppte Migrationen können wieder aufgenommen werden. Migrationen im STOPPED Bundesstaat können auch gelöscht werden.

Hadoop-Administrator, Besitzer der Anwendung

Zugehörige Ressourcen

Zusätzliche Informationen

Installation von Migrator LiveData

Sie können LiveData Migrator mit den folgenden Befehlen installieren, vorausgesetzt, das Installationsprogramm befindet sich in Ihrem Arbeitsverzeichnis:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Überprüfen Sie den Status von LiveData Migrator und anderen Diensten nach der Installation

Verwenden Sie die folgenden Befehle, um den Status von LiveData Migrator, Hive Migrator und UI zu überprüfen: WANdisco

service livedata-migrator status service hivemigrator status service livedata-ui status