Esegui la migrazione dei dati Hadoop su Amazon S3 utilizzando Migrator WANdisco LiveData - Prontuario AWS

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui la migrazione dei dati Hadoop su Amazon S3 utilizzando Migrator WANdisco LiveData

Creato da Tony Velcich

Fonte: cluster Hadoop locale

Obiettivo: Amazon S3

Tipo R: Rehost

Ambiente: produzione

Tecnologie: DataLakes Big data; Cloud ibrido; Migrazione

Carico di lavoro: tutti gli altri carichi di lavoro

AWSservizi: Amazon S3

Riepilogo

Questo modello descrive il processo di migrazione dei dati di Apache Hadoop da un Hadoop Distributed File System () ad Amazon Simple Storage Service (Amazon S3) HDFS Simple Storage Service (Amazon S3). Utilizza WANdisco LiveData Migrator per automatizzare il processo di migrazione dei dati.

Prerequisiti e limitazioni

Prerequisiti

  • Nodo edge del cluster Hadoop in cui LiveData verrà installato Migrator. Il nodo deve soddisfare i seguenti requisiti:

    • Specifiche minime: 4CPUs, 16 GBRAM, 100 GB di spazio di archiviazione.

    • Rete minima 2 Gbps.

    • Porta 8081 accessibile sul nodo perimetrale per accedere all'WANdiscointerfaccia utente.

    • Java 1.8 a 64 bit.

    • Librerie client Hadoop installate sul nodo perimetrale.

    • Capacità di autenticarsi come HDFSsuperutente (ad esempio, «hdfs»).

    • Se Kerberos è abilitato sul cluster Hadoop, sul nodo edge deve essere disponibile un keytab valido che contenga un principal adatto per il HDFS superutente.

    • Consulta le note di rilascio per un elenco dei sistemi operativi supportati.

  • Un AWS account attivo con accesso a un bucket S3.

  • Un collegamento AWS Direct Connect stabilito tra il cluster Hadoop locale (in particolare il nodo perimetrale) e. AWS

Versioni del prodotto

  • LiveData Migrator 1.8.6

  • WANdiscoInterfaccia utente (OneUI) 5.8.0

Architettura

Stack di tecnologia di origine

  • Cluster Hadoop locale

Stack tecnologico Target

  • Amazon S3

Architettura

Il diagramma seguente mostra l'architettura della soluzione LiveData Migrator.

Utilizzo di WANdisco LiveData Migrator per automatizzare il processo di migrazione dei dati Hadoop su Amazon S3.

Il flusso di lavoro è composto da quattro componenti principali per la migrazione dei dati da locale HDFS ad Amazon S3.

  • LiveData Migrator: automatizza la migrazione dei dati da Amazon HDFS S3 e risiede su un nodo perimetrale del cluster Hadoop.

  • HDFS— Un file system distribuito che fornisce un accesso ad alta velocità ai dati delle applicazioni.

  • Amazon S3: un servizio di storage di oggetti che offre scalabilità, disponibilità dei dati, sicurezza e prestazioni.

  • AWSDirect Connect: servizio che stabilisce una connessione di rete dedicata dai data center locali a. AWS

Automazione e scalabilità

In genere si creano più migrazioni in modo da poter selezionare contenuti specifici dal file system di origine per percorso o directory. È inoltre possibile migrare i dati su più file system indipendenti contemporaneamente definendo più risorse di migrazione.

Epiche

AttivitàDescrizioneCompetenze richieste

Accedi al tuo account AWS.

Accedi alla console di AWS gestione e apri la console Amazon S3 all'indirizzo. https://console.aws.amazon.com/s3/

AWSesperienza

Crea un bucket S3.

Se non disponi già di un bucket S3 esistente da utilizzare come storage di destinazione, scegli l'opzione «Crea bucket» sulla console Amazon S3 e specifica il nome del bucket, la AWS regione e le impostazioni del bucket per bloccare l'accesso pubblico. AWSe ti WANdisco consigliamo di abilitare le opzioni di accesso pubblico a blocchi per il bucket S3 e di configurare le politiche di accesso al bucket e di autorizzazione degli utenti per soddisfare i requisiti della tua organizzazione. Un AWS esempio è fornito in latest/dev/ -example1.html https://docs.aws.amazon.com/AmazonS3/. example-walkthroughs-managing-access

AWSesperienza
AttivitàDescrizioneCompetenze richieste

Scarica il programma di installazione di LiveData Migrator.

Scarica il programma di installazione di LiveData Migrator e caricalo sul nodo edge di Hadoop. Puoi scaricare una versione di prova gratuita di Migrator all'indirizzo /aws.amazon.com/marketplace/pp/B07B8. LiveData https://www2.wandisco.com/ldm-trial. You can also obtain access to LiveData Migrator from AWS Marketplace, at https:/ SZND9

Amministratore Hadoop, proprietario dell'applicazione

Installa LiveData Migrator.

Usa il programma di installazione scaricato e installa LiveData Migrator come HDFS superutente su un nodo perimetrale del tuo cluster Hadoop. Vedi la sezione «Informazioni aggiuntive» per i comandi di installazione.

Amministratore Hadoop, proprietario dell'applicazione

Controlla lo stato di LiveData Migrator e di altri servizi.

Controlla lo stato di LiveData Migrator, Hive migrator e WANdisco UI utilizzando i comandi forniti nella sezione «Informazioni aggiuntive».

Amministratore Hadoop, proprietario dell'applicazione
AttivitàDescrizioneCompetenze richieste

Registra il tuo account LiveData Migrator.

Accedi all'WANdiscointerfaccia utente tramite un browser Web sulla porta 8081 (sul nodo edge Hadoop) e fornisci i tuoi dati per la registrazione. Ad esempio, se esegui LiveData Migrator su un host denominato myldmhost.example.com, sarebbe: http://myldmhost.example.com:8081 URL

Proprietario dell'applicazione

Configura HDFS lo storage di origine.

Fornisci i dettagli di configurazione necessari per HDFS lo storage di origine. Ciò includerà il valore «fs.defaultFS» e un nome di archiviazione definito dall'utente. Se Kerberos è abilitato, fornite la posizione principale e keytab da utilizzare per Migrator. LiveData Se NameNode HA è abilitato sul cluster, fornisci un percorso ai file core-site.xml e hdfs-site.xml sul nodo perimetrale.

Amministratore Hadoop, proprietario dell'applicazione

Configura lo storage Amazon S3 di destinazione.

Aggiungi lo storage di destinazione come tipo S3a. Fornisci il nome di storage definito dall'utente e il nome del bucket S3. Inserisci «org.apache.hadoop.fs.s3a.S impleAWSCredentials Provider» per l'opzione Credentials Provider e fornisci le chiavi di accesso e segrete per il bucket S3. AWS Saranno inoltre necessarie proprietà S3a aggiuntive. Per i dettagli, consulta la sezione «Proprietà S3a» nella documentazione di LiveData Migrator all'indirizzo docs/command-reference/# 3a. https://docs.wandisco.com/live-data-migrator/ filesystem-add-s

AWS, Proprietario dell'applicazione
AttivitàDescrizioneCompetenze richieste

Aggiungi esclusioni (se necessario).

Se desideri escludere set di dati specifici dalla migrazione, aggiungi le esclusioni per l'archiviazione di origine. HDFS Queste esclusioni possono essere basate sulla dimensione del file, sui nomi dei file (basati su modelli regex) e sulla data di modifica.

Amministratore Hadoop, proprietario dell'applicazione
AttivitàDescrizioneCompetenze richieste

Crea e configura la migrazione.

Crea una migrazione nella dashboard dell'WANdiscointerfaccia utente. Scegli l'origine (HDFS) e la destinazione (il bucket S3). Aggiungi nuove esclusioni che hai definito nel passaggio precedente. Seleziona l'opzione «Sovrascrivi» o «Ignora se le dimensioni corrispondono». Crea la migrazione quando tutti i campi sono completi.

Amministratore Hadoop, proprietario dell'applicazione

Avvia la migrazione.

Nella dashboard, seleziona la migrazione che hai creato. Fai clic per avviare la migrazione. Puoi anche avviare una migrazione automaticamente scegliendo l'opzione di avvio automatico al momento della creazione della migrazione.

Proprietario dell'applicazione
AttivitàDescrizioneCompetenze richieste

Imposta un limite di larghezza di banda di rete tra l'origine e la destinazione.

Nell'elenco Archiviazioni sulla dashboard, seleziona lo spazio di archiviazione di origine e seleziona «Gestione della larghezza di banda» nell'elenco di raggruppamento. Deseleziona l'opzione illimitata e definisci il limite e l'unità di larghezza di banda massimi. Scegli «Applica».

Proprietario dell'applicazione, Networking
AttivitàDescrizioneCompetenze richieste

Visualizza le informazioni sulla migrazione utilizzando l'WANdiscointerfaccia utente.

Utilizza l'WANdiscointerfaccia utente per visualizzare le informazioni su licenza, larghezza di banda, archiviazione e migrazione. L'interfaccia utente fornisce anche un sistema di notifica che consente di ricevere notifiche su errori, avvisi o tappe importanti dell'utilizzo.

Amministratore Hadoop, proprietario dell'applicazione

Interrompi, riprendi ed elimina le migrazioni.

È possibile impedire a una migrazione di trasferire contenuti verso la destinazione inserendola nello stato. STOPPED Le migrazioni interrotte possono essere riprese. È inoltre possibile eliminare le migrazioni nello STOPPED stato.

Amministratore Hadoop, proprietario dell'applicazione

Risorse correlate

Informazioni aggiuntive

LiveData Installazione di Migrator

Potete usare i seguenti comandi per installare LiveData Migrator, supponendo che il programma di installazione si trovi nella vostra directory di lavoro:

su – hdfs chmod +x livedata-migrator.sh && sudo ./livedata-migrator.sh

Verifica dello stato di LiveData Migrator e degli altri servizi dopo l'installazione

Usa i seguenti comandi per controllare lo stato di LiveData Migrator, Hive migrator e UI: WANdisco

service livedata-migrator status service hivemigrator status service livedata-ui status