Übersicht Voraussetzungen und Einschränkungen Architektur Epen Zugehörige Ressourcen Zusätzliche Informationen

Migrieren Sie Hadoop-Daten mithilfe WANdisco LiveData von Migrator zu Amazon S3

Erstellt von Tony Velcich

Quelle: Lokaler Hadoop-Cluster	Ziel: Amazon S3	R-Typ: Rehost
Umgebung: Produktion	Technologien: DataLakes; Große Datenmengen; Hybrid-Cloud; Migration	Arbeitslast: Alle anderen Workloads
AWSDienste: Amazon S3

Übersicht

Dieses Muster beschreibt den Prozess für die Migration von Apache Hadoop-Daten von einem Hadoop Distributed File System (HDFS) zu Amazon Simple Storage Service (Amazon S3). Es verwendet WANdisco LiveData Migrator, um den Datenmigrationsprozess zu automatisieren.

Voraussetzungen und Einschränkungen

Voraussetzungen

Hadoop-Cluster-Edge-Knoten, auf dem LiveData Migrator installiert wird. Der Knoten sollte die folgenden Anforderungen erfüllen:
- Mindestspezifikation: 4CPUs, 16 GBRAM, 100 GB Speicher.
- Netzwerk mit mindestens 2 Gbit/s.
- Port 8081, auf den auf Ihrem Edge-Knoten zugegriffen werden kann, um auf die WANdisco Benutzeroberfläche zuzugreifen.
- Java 1.8 64-Bit.
- Auf dem Edge-Knoten installierte Hadoop-Clientbibliotheken.
- Möglichkeit, sich als HDFSSuperuser zu authentifizieren (z. B. „hdfs“).
- Wenn Kerberos auf Ihrem Hadoop-Cluster aktiviert ist, muss auf dem Edge-Knoten ein gültiger Keytab verfügbar sein, der einen geeigneten Principal für den HDFS Superuser enthält.
- Eine Liste der unterstützten Betriebssysteme finden Sie in den Versionshinweisen.
Ein aktives AWS Konto mit Zugriff auf einen S3-Bucket.
Ein AWS Direct Connect-Link, der zwischen Ihrem lokalen Hadoop-Cluster (insbesondere dem Edge-Knoten) und hergestellt wird. AWS

Produktversionen

LiveData Migrator 1.8.6
WANdiscoBenutzeroberfläche (OneUI) 5.8.0

Architektur

Quelltechnologie-Stack

Lokaler Hadoop-Cluster

Zieltechnologie-Stack

Amazon S3

Architektur

Das folgende Diagramm zeigt die Architektur der LiveData Migrator-Lösung.

Verwenden von WANdisco LiveData Migrator zur Automatisierung der Migration von Hadoop-Daten zu Amazon S3.

Der Workflow besteht aus vier Hauptkomponenten für die Datenmigration von lokalen Systemen HDFS zu Amazon S3.

LiveData Migrator — Automatisiert die Migration von Daten von HDFS zu Amazon S3 und befindet sich auf einem Edge-Knoten des Hadoop-Clusters.
HDFS— Ein verteiltes Dateisystem, das Zugriff auf Anwendungsdaten mit hohem Durchsatz ermöglicht.
Amazon S3 — Ein Objektspeicherservice, der Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet.
AWSDirect Connect — Ein Dienst, der eine dedizierte Netzwerkverbindung von Ihren lokalen Rechenzentren zu AWS herstellt.

Automatisierung und Skalierung

In der Regel erstellen Sie mehrere Migrationen, sodass Sie bestimmte Inhalte aus Ihrem Quelldateisystem nach Pfad oder Verzeichnis auswählen können. Sie können Daten auch in mehrere unabhängige Dateisysteme gleichzeitig migrieren, indem Sie mehrere Migrationsressourcen definieren.

Epen

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Melden Sie sich bei Ihrem AWS-Konto an.	Melden Sie sich bei der AWS Management Console an und öffnen Sie die Amazon S3 S3-Konsole unter https://console.aws.amazon.com/s3/.	AWSErfahrung
Erstellen Sie einen S3-Bucket.	Wenn Sie noch keinen vorhandenen S3-Bucket haben, den Sie als Zielspeicher verwenden können, wählen Sie in der Amazon S3 S3-Konsole die Option „Bucket erstellen“ und geben Sie einen Bucket-Namen, eine AWS Region und Bucket-Einstellungen für den Block Public Access an. AWSund WANdisco empfehlen Ihnen, die Optionen zum Blockieren des öffentlichen Zugriffs für den S3-Bucket zu aktivieren und die Richtlinien für den Bucket-Zugriff und die Benutzerberechtigungen so einzurichten, dass sie den Anforderungen Ihrer Organisation entsprechen. Ein AWS Beispiel finden Sie unter https://docs.aws.amazon.com/AmazonS3/ example-walkthroughs-managing-access latest/dev/ -example1.html.	AWSErfahrung

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Laden Sie das LiveData Migrator-Installationsprogramm herunter.	Laden Sie das LiveData Migrator-Installationsprogramm herunter und laden Sie es auf den Hadoop Edge-Knoten hoch. Sie können eine kostenlose Testversion von LiveData Migrator unter /aws.amazon.com/marketplace/pp/B07B8 herunterladen. https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9	Hadoop-Administrator, Besitzer der Anwendung
Installieren Sie LiveData Migrator.	Verwenden Sie das heruntergeladene Installationsprogramm und installieren Sie LiveData Migrator als HDFS Superuser auf einem Edge-Knoten in Ihrem Hadoop-Cluster. Die Installationsbefehle finden Sie im Abschnitt „Zusätzliche Informationen“.	Hadoop-Administrator, Besitzer der Anwendung
Überprüfen Sie den Status von LiveData Migrator und anderen Diensten.	Überprüfen Sie den Status von LiveData Migrator, Hive Migrator und WANdisco UI mithilfe der Befehle im Abschnitt „Zusätzliche Informationen“.	Hadoop-Administrator, Anwendungsbesitzer

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Registrieren Sie Ihr LiveData Migrator-Konto.	Melden Sie sich über einen Webbrowser auf Port 8081 (auf dem Hadoop-Edge-Knoten) bei der WANdisco Benutzeroberfläche an und geben Sie Ihre Daten für die Registrierung ein. Wenn Sie LiveData Migrator beispielsweise auf einem Host namens myldmhost.example.com ausführen, wäre das: http://myldmhost.example.com:8081 URL	Besitzer der Anwendung
Konfigurieren Sie Ihren HDFS Quellspeicher.	Geben Sie die für Ihren HDFS Quellspeicher erforderlichen Konfigurationsdetails an. Dazu gehören der Wert „fs.defaultFS“ und ein benutzerdefinierter Speichername. Wenn Kerberos aktiviert ist, geben Sie den Principal- und den Keytab-Speicherort an, den Migrator verwenden soll. LiveData Wenn NameNode HA auf dem Cluster aktiviert ist, geben Sie einen Pfad zu den Dateien core-site.xml und hdfs-site.xml auf dem Edge-Knoten an.	Hadoop-Administrator, Besitzer der Anwendung
Konfigurieren Sie Ihren Amazon S3 S3-Zielspeicher.	Fügen Sie Ihren Zielspeicher als Typ S3a hinzu. Geben Sie den benutzerdefinierten Speichernamen und den S3-Bucket-Namen an. Geben Sie „org.apache.hadoop.fs.s3a.S impleAWSCredentials Provider“ für die Option Credentials Provider ein und geben Sie die Zugriffs- und Geheimschlüssel für den S3-Bucket ein. AWS Zusätzliche S3a-Eigenschaften werden ebenfalls benötigt. Einzelheiten finden Sie im Abschnitt „S3a-Eigenschaften“ in der LiveData Migrator-Dokumentation unter https://docs.wandisco.com/live-data-migrator/ docs/command-reference/# 3a. filesystem-add-s	AWS, Besitzer der Anwendung

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Fügen Sie Ausnahmen hinzu (falls erforderlich).	Wenn Sie bestimmte Datensätze von der Migration ausschließen möchten, fügen Sie Ausnahmen für den Quellspeicher hinzu. HDFS Diese Ausnahmen können auf der Dateigröße, den Dateinamen (basierend auf Regex-Mustern) und dem Änderungsdatum basieren.	Hadoop-Administrator, Besitzer der Anwendung

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Erstellen und konfigurieren Sie die Migration.	Erstellen Sie eine Migration im Dashboard der WANdisco Benutzeroberfläche. Wählen Sie Ihre Quelle (HDFS) und Ihr Ziel (den S3-Bucket). Fügen Sie neue Ausnahmen hinzu, die Sie im vorherigen Schritt definiert haben. Wählen Sie entweder die Option „Überschreiben“ oder die Option „Überspringen, wenn die Größe übereinstimmt“. Erstellen Sie die Migration, wenn alle Felder vollständig sind.	Hadoop-Administrator, Besitzer der Anwendung
Starten Sie die Migration.	Wählen Sie im Dashboard die Migration aus, die Sie erstellt haben. Klicken Sie hier, um die Migration zu starten. Sie können eine Migration auch automatisch starten, indem Sie bei der Erstellung der Migration die Option Autostart auswählen.	Besitzer der Anwendung

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Legen Sie ein Netzwerkbandbreitenlimit zwischen Quelle und Ziel fest.	Wählen Sie in der Speicherliste auf dem Dashboard Ihren Quellspeicher aus und wählen Sie in der Gruppierungsliste „Bandbreitenverwaltung“ aus. Deaktivieren Sie die Option „Unbegrenzt“ und definieren Sie das maximale Bandbreitenlimit und die maximale Bandbreiteneinheit. Wählen Sie „Anwenden“.	Inhaber der Anwendung, Netzwerk

Aufgabe	Beschreibung	Erforderliche Fähigkeiten
Zeigen Sie Migrationsinformationen über die WANdisco Benutzeroberfläche an.	Verwenden Sie die WANdisco Benutzeroberfläche, um Lizenz-, Bandbreiten-, Speicher- und Migrationsinformationen anzuzeigen. Die Benutzeroberfläche bietet auch ein Benachrichtigungssystem, sodass Sie Benachrichtigungen über Fehler, Warnungen oder wichtige Meilensteine Ihrer Nutzung erhalten können.	Hadoop-Administrator, Anwendungsbesitzer
Migrationen beenden, fortsetzen und löschen.	Sie können verhindern, dass bei einer Migration Inhalte auf das Ziel übertragen werden, indem Sie sie in den STOPPED entsprechenden Status versetzen. Gestoppte Migrationen können wieder aufgenommen werden. Migrationen im STOPPED Bundesstaat können auch gelöscht werden.	Hadoop-Administrator, Besitzer der Anwendung

Zugehörige Ressourcen

Zusätzliche Informationen

Installation von Migrator LiveData

Sie können LiveData Migrator mit den folgenden Befehlen installieren, vorausgesetzt, das Installationsprogramm befindet sich in Ihrem Arbeitsverzeichnis:


su – hdfs
chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Überprüfen Sie den Status von LiveData Migrator und anderen Diensten nach der Installation

Verwenden Sie die folgenden Befehle, um den Status von LiveData Migrator, Hive Migrator und UI zu überprüfen: WANdisco


service livedata-migrator status
service hivemigrator status
service livedata-ui status

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Stellen Sie einen serverlosen Data Lake bereit und verwalten Sie ihn auf AWS

Mehr Muster